Hadoop Dağıtılmış Dosya Sistemi (HDFS) - ahşap

Hadoop Dağıtılmış Dosya Sistemi, büyük bir veri ortamında dosyaları yönetmek için çok yönlü, esnek, kümelenmiş bir yaklaşımdır. Dosyalar için HDFS son hedef değil. Aksine, veri hacimleri ve hız yüksek olduğunda ihtiyaç duyulan benzersiz bir yetenek kümesi sunan bir veri servisidir. Veriler bir kez yazıldıktan sonra diğer dosya sistemlerinin sürekli okuma-yazma yerine birçok kez okunduğundan, HDFS büyük veri analizini desteklemek için mükemmel bir seçimdir.

Büyük veri NameNodes

HDFS, büyük dosyaları blok adlı küçük parçalara ayırarak çalışır. Bloklar veri düğümlerinde depolanır ve hangi veri düğümlerinde tam dosyayı oluşturan blokları bilmek için NameNode'un sorumluluğundadır. NameNode, dosyalara yapılan tüm erişimi yöneten bir "trafik polisi" olarak da görev yapar.

Kümedeki tüm dosyaların eksiksiz koleksiyonuna bazen dosya sistemi

ad alanı adı verilir. Bu ad alanını yönetmek NameNode'un işidir. NameNode ve veri düğümleri arasında güçlü bir ilişki olsa da, bunlar "gevşek bağlı" bir biçimde çalışır. Bu, küme öğelerinin talep arttıkça sunucuları ekleyerek dinamik davranmasına izin verir. Tipik bir yapılandırmada, bir NameNode ve muhtemelen raftaki bir fiziksel sunucu üzerinde çalışan bir veri düğümü bulursunuz. Diğer sunucular yalnızca veri düğümleri çalıştırır.

Veri düğümleri, normal dosya sistemi işlemleri sırasında işbirliği yapabilmek için kendi aralarında iletişim kurar. Bir dosyanın blokları çoklu veri düğümlerinde depolanması muhtemel olduğu için bu gereklidir. NameNode, kümenin doğru çalışması için kritik olduğundan, tek bir noktadan başarısızlığa karşı korunmak için çoğaltılabilir veya çoğaltılmalıdır.

Büyük veri düğümleri

Veri düğümleri akıllı değildir ancak esnektirler. HDFS kümesinde veri blokları birden fazla veri düğümünde çoğaltılır ve erişim NameNode tarafından yönetilir. Çoğaltma mekanizması, kümenin tüm düğümleri bir rafa toplandığında optimum verimlilik için tasarlanmıştır. Aslında, NameNode, kümedeki veri düğümlerini takip etmek için bir "raf kimliğini" kullanır.

Veri düğümleri, NameNode ve veri düğümleri arasındaki bağlantıyı saptamak ve sağlamak için "kalp atışı" mesajları da sağlar. Artık bir kalp atışı bulunmadığında, NameNode veri düğümünü kümeden kaldırır ve sanki hiçbir şey olmamış gibi çalışır durumda kalmaya devam eder. Kalp atışı döndüğünde, küme kullanıcı veya uygulamaya göre saydam olarak eklenir.

Veri bütünlüğü önemli bir özelliktir. HDFS, veri bütünlüğü sağlamak için tasarlanmış birtakım yetenekleri desteklemektedir. Beklediğiniz gibi, dosyalar bloklara ayrılıp kümedeki farklı sunuculara dağıtıldığında, herhangi bir öğenin çalışmasındaki herhangi bir değişiklik, veri bütünlüğünü etkileyebilir. HDFS, küme boyunca bütünlüğü sağlamak için işlem günlüklerini ve sağlama toplamı doğrulamasını kullanır.

İşlem günlükleri, her işlemin kaydını tutar ve uygunsuz bir şey olması durumunda, dosya sisteminin denetiminde veya yeniden oluşturulmasında etkilidir.

Checksum doğrulamaları, HDFS'deki dosyaların içeriğini garanti etmek için kullanılır. Bir istemci bir dosya istediğinde, sağlama toplamını inceleyerek içeriği doğrulayabilir. Sağlama toplamı eşleşirse, dosya işlemi devam edebilir. Değilse, bir hata bildirildi. Takas dosyalarından kurtulmayı önlemek için saklanır.

Veri düğümleri emtia sunucusunda kalıcılık için yerel diskleri kullanır. Tüm veri blokları öncelikli olarak performans nedenleriyle yerel olarak depolanır. Veri blokları birkaç veri düğümünde çoğaltılır, bu nedenle bir sunucunun başarısızlığı bir dosyanın bozulmasına neden olmayabilir. Küme uygulandığında çoğaltma derecesi, veri düğümlerinin sayısı ve HDFS ad alanı oluşturulur.

Büyük veriler için HDFS

HDFS, dosyaları küçük blokların ilgili bir koleksiyonuna ayıracak şekilde büyük veri sorunlarına çözüm buluyor. Bu bloklar, HDFS kümesindeki veri düğümleri arasında dağıtılır ve NameNode tarafından yönetilir. Blok boyutları yapılandırılabilir ve genellikle 128 megabayt (MB) veya 256MB'dir, yani 1GB dosya, temel depolama gereksinimleri için sekiz 128MB blok tüketir.

HDFS esnektir, bu nedenle bu bloklar sunucu hatası durumunda küme boyunca çoğaltılır. HDFS, tüm bu parçaları nasıl takip ediyor? Kısa cevap dosya sistemi

meta veriler 'dır. Meta veriler "verilerle ilgili veriler" olarak tanımlanır. "HDFS meta verilerini aşağıdakilerin ayrıntılı bir açıklaması için bir şablon olarak düşünün:

Dosya oluşturulduğunda, erişildiğinde, değiştirildiğinde, silindiğinde vb.

Dosyanın blokları kümede nerede saklanır < Dosyayı görüntüleme veya değiştirme hakkına sahip kimlerin
Kümede kaç dosya saklanır
Kümede kaç veri düğümü var
Küme için işlem günlüğünün konumu
HDFS meta veriler NameNode'da saklanır ve küme çalışırken tüm meta veriler NameNode sunucusunun fiziksel belleğine yüklenir. Tahmin edebileceğiniz gibi, kümelenme ne kadar büyük olursa, metadata ayak izi de o kadar büyük olur.
Blok sunucusu tam olarak ne yapar? Aşağıdaki listeye göz atın:

Veri bloklarını sunucunun yerel dosya sisteminde saklar. HDFS birçok farklı işletim sisteminde bulunur ve Windows, Mac OS veya Linux'da da aynı davranır.

NameNode'daki meta veri şablonuna dayalı olarak bir bloğun meta verilerini yerel dosya sisteminde saklar.

Dosya sağlama toplamlarının periyodik olarak doğrulamasını yapar.
NameNode'a dosya işlemleri için hangi blokların mevcut olduğunu düzenli raporlar gönderir.
Talep üzerine müşterilere meta veri ve veri sağlar. HDFS, istemci uygulama programlarından veri düğümlerine doğrudan erişimi destekler.
Verileri, bir "boruhattı" modeline dayanan diğer veri düğümlerine iletir.
Veri düğümleri üzerindeki blok yerleşimi, veri çoğaltma ve veri bağlantı kurma desteği için kritik önem taşır. HDFS, her bloğun bir çoğaltmasını yerel olarak tutar. HDFS veri kopyalama ve esneklik konusunda ciddidir.