İçindekiler:
Video: What is Big Data? - Computerphile 2024
Dağıtılan Hadoop kümelerindeki ana düğümler, bu listede açıklanan çeşitli Hadoop kümesi depolama ve işleme yönetim hizmetlerini barındırır. Tekli hata noktalarından kaçınmak için artıklık önemlidir, bu nedenle iki anahtar ve üç ana düğüm görüyorsunuz.
-
NameNode: HDFS depolama birimini yönetir. Yüksek kullanılabilirlik sağlamak için, hem etkin bir NameNode hem de bekleme NameNode'a sahip olursunuz. Her biri kendi özel ana düğümünde çalışır.
-
Kontrol noktası düğümü (veya yedek düğüm): Kontrol Noktası hizmetini NameNode için sağlar. Bu, son kontrol noktasından bu yana HDFS dosyalarındaki (yeni, silinen ve eklenen dosyalar) yapılan değişiklikler için NameNode'un düzenleme günlüğünü okumayı ve bunları dosyaları veri bloklarına eşleyen NameNode ana dosyasına uygulamanızı içerir.
Buna ek olarak, Yedekleme Düğümü, dosya sistemi ad alanının bir kopyasını bellekte tutar ve NameNode'un durumuyla senkronize kalmasını sağlar. Yüksek kullanılabilirlikli dağıtımlar için, bir denetim noktası düğümü veya yedek düğüm kullanmayın - bunun yerine bir Bekleme NameNode kullanın. NameNode için etkin bekleme durumuna ek olarak, Bekleme NameNode denetim noktası servislerini tutar ve dosya sistemi ad alanının güncel kopyasını bellekte tutar.
-
JournalNode: HDFS'deki dosyalardaki değişiklikleri NameNode'dan gösteren değişiklik günlüğü değişikliklerini alır. En az üç JournalNode servisi (ve her zaman tek sayıdır) bir kümede çalışıyor olmalı ve ana düğümlerde diğer servislerle birlikte konumlanabilecek kadar hafiftirler.
-
Kaynak Yöneticisi: Uygulama görevlerinin zamanlamasını ve Hadoop kümesinin kaynaklarının yönetimini denetler. Bu hizmet, İPLİK'in kalbi.
-
JobTracker: Hadoop 1 sunucuları için küme kaynağı yönetimi ve zamanlama işler. YARN ile JobTracker eskidir ve kullanılmaz. Bir dizi Hadoop dağıtımı hâlâ Hadoop 2 ve YARN'a taşınmamıştır.
-
HMaster: HBase bölgesi sunucularını izler ve tüm meta veri değişikliklerini gerçekleştirir. Yüksek kullanılabilirlik sağlamak için, ikinci bir HMaster örneğini kullandığınızdan emin olun. HMaster hizmeti, ana düğümlerdeki diğer hizmetlerle aynı yerde bulunacak kadar hafiftir. Hadoop 1'de, HMaster hizmetinin örnekleri ana düğümlerde çalışır. Hadoop 2'de, Hoya (İplikte HBase) ile, HMaster örnekleri bağımlı düğümlerde konteynırlarda çalışır.
-
Zookeeper: Dağıtım bileşenlerini koordine eder ve bunları senkronize tutacak mekanizmalar sağlar. Zookeeper, NameNode hatasını tespit etmek ve yeni bir NameNode seçmek için kullanılır.HBaster ile birlikte HMaster ve RegionServers'ın durumlarını yönetmek için kullanılır.
JournalNode'da olduğu gibi, Zookeeper düğümlerinin en az üç örneğine (ve her zaman tek sayıya) ihtiyaç duyarsınız ve ana düğümlerdeki diğer hizmetlerle aynı yerde bulunacak kadar hafiftirler.
Burada, Active NameNode, Bekleme AdıNodu ve Kaynak Yöneticisinin her birinin kendi sunucusuna sahip olduğu üç ana düğüm (aynı donanıma sahip) var. Her bir sunucuda da çalışan JournalNode ve Zookeeper hizmetleri vardır, ancak bunlar hafiftir ve NameNode ve Kaynak Yöneticisi hizmetleri ile bir kaynak çekişmesi kaynağı olmayacaktır.
İlke, NameNode, Secondary NameNode ve JobTracker hizmetleri için özel bir ana düğüme ihtiyacınız olan Hadoop 1 için aynıdır.
Hoase ile HBase'i Hadoop 2'de kullanmayı planlıyorsanız ek servislere ihtiyacınız yoktur. HBase kullanan Hadoop 1 dağıtımları için, Hadoop kümesinin ana düğümlerinde hizmetlerin dağıtımı için aşağıdaki şekle bakın.
Bu ana sunucuları HBase desteği olmadan Hadoop 1 ana sunucularıyla karşılaştırırken iki farklılık vardır: Burada her biri üç ana düğümde Zookeeper hizmetleri olmak üzere iki HMaster hizmetine (HBase'yi koordine etmek için bir tane ve bekleme olarak davranmak için) ihtiyaç duyarsınız Yük devretme işlemini gerçekleştirmek için.
Haseop 1 kümenizi yalnızca HBase için kullanmak istiyorsanız, JobTracker hizmeti olmadan yapabilirsiniz, çünkü HBase Hadoop 1 MapReduce altyapısına bağımlı değildir.
İnsanlar Hadoop için donanım hakkında konuşurken, genellikle emtia bileşenlerini - ucuz olanları - kullanmayı vurguluyorlar. Yalnızca birkaç ana düğüme (genellikle üç ya da dört) ihtiyacınız olduğundan, pahalı sabit disk sürücülerini kullanmaya karar verdiğinizde maliyeti çarpmaktan çekinmezsiniz.
Ana düğümler olmadan, hiçbir Hadoop kümesinin bulunmadığını unutmayın. Ana düğümler görev açısından kritik bir işleve hizmet eder ve yedekliğe ihtiyaç duymanıza rağmen bunları yüksek kullanılabilirlik ve esneklik göz önünde bulundurarak tasarlamanız gerekir.
Önerilen depolama alanı
Hadoop ana düğümleri için, bağımlı düğümlerin sayısına bakılmaksızın veya kümenin kullanımı, depolama özellikleri tutarlıdır. Dört tane 900GB SAS sürücü ve RAID 1 + 0 için yapılandırılmış bir RAID HDD denetleyicisi kullanın. SAS sürücüleri SATA sürücülerinden daha pahalıdır ve daha düşük depolama kapasitesine sahiptir, ancak daha hızlı ve çok daha güvenilirdirler.
SAS sürücülerinizi bir RAID dizisi olarak dağıtmak, Hadoop yönetim hizmetlerinin kritik önem taşıyan veriler için yedekli bir depolama alanına sahip olmasını sağlar. Bu, Hadoop kümenizin yönetimini destekleyecek yeterli istikrarlı, hızlı ve yedekli depolama alanı sağlar.
Önerilen işlemciler
Bu yazının yazıldığı sırada çoğu başvuru mimarisi, altı veya sekiz çekirdekli, iki adet CPU yuvası olan anakartları kullanmanızı önerir. Intel Ivy Bridge mimarisi yaygın olarak kullanılmaktadır.
Önerilen bellek
Bellek gereksinimleri, bir Hadoop kümesinin ölçeğine bağlı olarak önemli ölçüde değişir.Bellek, Hadoop ana düğümleri için kritik bir faktördür, çünkü etkin ve bekleme olan NameNode sunucuları HDFS'yi yönetmek için RAM'e güvenir. Bu nedenle, Hadoop ana düğümleri için hata düzeltici bellek (ECC) kullanın. Tipik olarak, ana düğümlerin 64GB ile 128GB arasında RAM olması gerekir.
NameNode bellek gereksinimi, HDFS'de depolanan dosya bloklarının sayısının doğrudan bir fonksiyonudur. Bir kural olarak, NameNode milyon HDFS bloğu başına kabaca 1GB RAM kullanır. (Dosyaların ayrı bloklara ayrıldığını ve her bloğun üç kopyasının olması için çoğaltıldığını unutmayın.)
Kaynak Yöneticisi, HMaster, Zookeeper ve JournalNode sunucularının bellek talepleri, NameNode sunucusundan çok daha düşüktür. Bununla birlikte, donanım hatası durumunda değiştirilebilecek şekilde ana düğümlerin tutarlı bir biçimde boyutlandırılması iyi bir uygulamadır.
Önerilen ağ bağlantısı
Hızlı iletişim, ana düğümlerdeki hizmetler için hayati önem taşır; bu nedenle, bir çift bağlı 10GbE bağlantısı kullanmanızı öneririz. Bu bağlı çift, artıklık sağlar, ancak aynı zamanda 20GbE'ye iki katına çıktı. Daha küçük kümeler (örneğin, 50 düğümden az) için 1 GbE konektörleri kullanarak uzaklaşabilirsiniz.