İçindekiler:
Video: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024
Hadoop, fiziksel bir bilgisayara kurulduğunda, işlemenin özel depolama ve ağa doğrudan erişebildiği yerlerde en iyi şekilde çalışmasına rağmen, Hadoop'un alternatif dağıtımları vardır. Ve özel donanımdan daha az verimli olsa da, bazı durumlarda alternatifler değerli seçeneklerdir.
Sanallaştırılmış sunucular
BT merkezlerinde son on yıldaki önemli bir gelişme, büyük bir sunucunun tek bir makine gibi görünen ve hareket eden birkaç "sanal makinesi" barındırabildiği sanallaştırmadır. Özel donanım yerine bir organizasyonun tüm uygulama ve havuz seti sanallaştırılmış donanım üzerine yerleştirilir.
Bu yaklaşım birçok avantaja sahiptir: IT'nin merkezileştirilmesi bakımın basitleştirilmesine, kullanılmayan CPU döngülerinin azalmasına bağlı olarak BT yatırımının en üst düzeye çıkarılmasına ve genel donanım ayak izinin daha düşük olması nedeniyle toplam sahip olma maliyetinin düşmesine neden olur.
BT dağıtımlarının tamamıyla sanallaştırıldığı kuruluşlar, bazen her yeni uygulamanın bu modeli takip etmesini zorunlu kılar. Hadoop bu şekilde, aslında sanal küme (sanal ana düğümler ve sanal köleli düğümler) olarak konuşlandırılabilse de, kısmen de olsa çoğu sanal ortamda depolama SAN tabanlı ve yerel olarak bağlı olmadığı için performans yetersiz kalıyor.
Hadoop, kullanılabilir tüm CPU çekirdeği, bağımsız olarak dönen disklere hızlı erişime sahip olduğunda en iyi sonucu verecek şekilde tasarlandığından, tüm harita ve azaltma görevleri, veri paylaşımını sınırlı ağ üzerinden başlattığı için bir tıkanıklık oluşur CPU'lar ve SAN arasında. Sanallaştırılmış sunucu kaynakları arasındaki izolasyon derecesi sınırlı olduğundan (sanal sunucular kaynaklarını birbiriyle paylaşır), Hadoop iş yükleri diğer faaliyetlerden de etkilenebilir.
Sanal sunucunuzun performansı başka bir sunucunun iş yükünden etkilenirse, BT çevrelerinde aslında "gürültülü bir komşu" sorunu olarak bilinir!
Bazı durumlarda sanallaştırılmış ortamlar oldukça kullanışlı olabilir. Örneğin, kuruluşunuz büyük bir veri kümesinin bir defalık keşif analizi gerçekleştirmesi gerekiyorsa, sanallaştırılmış ortamınızda kolayca geçici bir küme oluşturabilirsiniz. Bu yöntem, genellikle, yeni özel donanım tedarik etmenin bürokratik zorluklarına katlanmaktan ziyade dahili onay almak için daha hızlı bir yoldur.
Hadoop'la deneme yaparken, genellikle bir sanal makine (VM) aracılığıyla dizüstü bilgisayarlarınızda çalıştırırsınız. Hadoop bu tür bir ortamda oldukça yavaştır, ancak küçük veri kümeleri kullanıyorsanız değerli bir öğrenme ve test aracıdır.
Bulut dağıtımları
Sanallaştırılmış ortamların çeşitlemeleri, Amazon, Rackspace ve IBM SoftLayer gibi bulut bilişim sağlayıcılarıdır. Çoğu genel bulut sağlayıcılarının artık MapReduce veya Hadoop teklifleri var. Yine, performansları kümenizi özel donanıma yerleştirmekten daha düşük ancak gelişiyor.
Bulut sağlayıcıları, bağımlı düğümlerin yerel olarak bağlı depolama ve özel ağa sahip olduğu yerlerde Hadoop için optimize edilmiş ortamlar hazırlıyor. Ayrıca, aşırı denetimciler azalan genel gider ve gecikme ile çok daha verimli hale gelmektedir.
Bulut bilgi işlem kaynaklarını kiralama maliyeti, karşılaştırılabilir bir sistemi elinde tutmak ve korumaktan çok daha yüksek olduğu için, uzun vadeli uygulamalar için bir bulut çözümü düşünmeyin. Bir bulut sağlayıcısı ile, kolaylık sağlamak ve donanım tedarikinin yükünü boşa harcamak için para ödüyorsunuz. Bununla birlikte, bulut test, eğitim ve bir kerelik veri işleme görevleri için ideal bir platformdur.
Performans ve maliyet düşüncelerinin yanı sıra, genel bulut dağıtımlarında düzenleme konusundaki düşünceleriniz de var. Şirket içinde veya ülkede depolanması gereken hassas verilere sahipseniz, bir genel bulut dağıtımı bir seçenek değildir. Böyle bir durumda, bulut tabanlı bir dağıtımın kolaylığına ihtiyaç duyduğunuz durumlarda, özel bulut, mevcutsa, iyi bir seçenektir.