Video: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024
Hadoop ekosisteminin hepsi kendi Apache projeleri olarak var olan bir çok bileşen parçasına sahip olduğunu göreceksiniz. Hadoop önemli ölçüde büyüdüğü ve bazı önemli değişikliklerle karşı karşıya bulunduğu için, bu açık kaynak topluluk bileşenlerinin farklı sürümleri diğer bileşenlerle tam uyumlu olmayabilir. Bu, projeleri doğrudan Apache'den indirip derleyerek Hadoop'la bağımsız bir başlangıç yapmak isteyen insanlar için önemli zorluklar ortaya koymaktadır.
Red Hat, birçok kişi için açık kaynaklı yazılım pazarında başarıyla para kazanma modelidir. Red Hat, Linux'u (açık kaynaklı bir işletim sistemi) almak, gerekli tüm bileşenleri paketlemek, basit bir yükleyici oluşturmak ve herhangi bir müşteriye ücretli destek sağlamaktır.
Red Hat Linux için kullanışlı bir paketleme sağladığı gibi, birçok şirket Hadoop ve bazı ilgili teknolojileri kendi Hadoop dağıtımlarına dahil etmiştir. Bu liste daha belirgin olanları tanımlıyor:
-
Cloudera : Belki de alanda en tanınmış oyuncu olan Cloudera, Hadoop'un kurucu ortağı Doug Cutting'i baş mimar olarak talep edebiliyor. Cloudera birçok insanın Hadoop alanındaki pazar lideri olarak göründüğünden, ilk ticari Hadoop dağıtımını yayımladı ve Hadoop ekosistemine oldukça etkili bir kod katkısı.
Cloudera tarafından "Kurumsal Veri Hubı" nın merkezinde yer alan bir ürün olan Cloudera Enterprise, Hadoop'un açık kaynak tabanlı bir dağıtımını ve ilgili projelerini de içeren, Hadoop için Cloudera Distribution (CDH) 'yi kendi tescilli Cloudera Yöneticisi olarak. Ayrıca, CDH'nin temel bileşenleri için teknik destek aboneliği de bulunmaktadır.
Cloudera'nın ana iş modeli uzun zamandır popüler CDH dağıtımından yararlanma ve ücretli hizmetler ve destek sağlama becerisine dayanıyordu. 2013 sonbaharında Cloudera, açık kaynaklı Hadoop'un üstünde ayrıcalıklı davranmak için katma değerli bileşenlerin eklenmesine odaklandığını resmen ilan etti.
Ayrıca, Cloudera yeni Hadoop sürümleri için alfa ve beta düzeyinde açık kaynak kodunun benimsenmesini hızlandırmak için ortak bir uygulama yaptı. Onun yaklaşımı, olgunlaştığı düşünülen bileşenleri alıp dağıtımda bulunan mevcut üretim hazır açık kaynak kitaplıklarına uyarlamaktır.
-
EMC : EMC'den Apache Hadoop dağıtımı olan Pivotal HD, EMC'nin büyük çaplı paralel işleme (MPP) veritabanı teknolojisini (eski adıyla Greenplum ve şimdi HAWQ olarak da bilinir) Apache Hadoop ile bütünleştiriyor.Sonuç, Hadoop için gerçek SQL işleme özelliğine sahip yüksek performanslı bir Hadoop dağıtımıdır. HDFS'de depolanan verileri analiz etmek için SQL tabanlı sorgular ve diğer iş zekası araçları kullanılabilir.
-
Hortonworks : Hadoop piyasasındaki bir diğer önemli oyuncu olan Hortonworks, Hadoop ekosistem bileşenleri için en çok sayıda görevci ve kod katkıcıya sahiptir. (Görevliler Apache projelerinin gözetmenleridir ve kod değişikliklerini onaylama yetkisine sahiptir.)
Hortonworks, Yahoo! 'Nun bir kuruluşudur., çünkü arama motoru işini desteklemek için büyük ölçekli bir platforma ihtiyaç duyduğu Hadoop projesinin orijinal kurumsal şoförü idi. Horton dağıtım sağlayıcılarının tümünde Hortonworks, topluluğa katkıda bulunan geliştirme çalışmalarının hacmine dayanan açık kaynak hareketine en çok kararlıdır ve tüm geliştirme çabaları (sonunda) açık kod kod tabanına katılmıştır.
Hortonworks iş modeli, popüler HDP dağıtımından yararlanma ve ücretli hizmetler ve destek sağlama becerisine dayalıdır. Ancak, tescilli yazılım satmaz. Daha ziyade şirket, kurumsal özellik gereksinimlerini (örneğin Hive ile daha hızlı sorgu işleme) yönelik çözümler geliştirmek için açık kaynak topluluğu içinde çalışma fikrini hevesle desteklemektedir.
Hortonworks, veri yönetimi endüstrisinde yerleşik şirketler ile bir dizi ilişki kurdu: Teradata, Microsoft, Informatica ve SAS. Bu şirketlerin kendi şirket içi Hadoop ürünlerine sahip olmamasına rağmen, kendi ürün kümeleri ile entegre Hadoop çözümleri sağlamak için Hortonworks ile işbirliği yapıyorlar.
Hortonworks Hadoop teklifi, Hadoop'u ve ilgili takımları ve projeleri içeren Hortonworks Veri Platformu (HDP) 'dir. Ayrıca Cloudera'nın aksine, Hortonworks açık kaynak topluluğunun üretim seviyesi koduyla yalnızca HDP sürümlerini yayınladı.
-
IBM : Big Blue, açık kaynak kodlu Hadoop yığınının üstünde katma değer etrafında yoğunlaşan bir dizi Hadoop teklifi sunar.
-
Intel: Apache Hadoop için Intel Dağıtımı (Intel Dağıtımı), büyük verileri analiz eden kurumsal uygulamalar için dağıtılmış işleme ve veri yönetimi sağlar.
Temel özellikler, Intel Xeon işlemcileri, Intel SSD depolama alanı ve Intel 10GbE ağları için iyileştirmelerle mükemmel performans; HDFS'de şifreleme ve şifre çözme yoluyla veri güvenliği ve HBase'de hücre düzeyinde ayrıntı düzeyine sahip rolü tabanlı erişim kontrolü; Geliştirilmiş Hive sorgu performansı; popüler açık kaynaklı istatistiksel paket olan R için bir bağlayıcı ile istatistiksel analiz için destek; ve Intel Graph Builder ile analitik grafik.
-
MapR : Apache Hadoop ve Apache Software Foundation'tan bağımsız olan ilgili projeler için eksiksiz bir dağıtım için MapR'den başka bir yere bakmayın. Java bağımlılıklarına veya Linux dosya sistemine bağımlılığa sahip olmayan MapR, tam veri koruması, tek bir hata noktası ve önemli kolay kullanım avantajı sağlayan tek Hadoop dağıtımı olarak tanıtılıyor.
Üç MapR sürümü mevcuttur: M3, M5 ve M7. M3 Edition ücretsiz olup sınırsız üretim için kullanılabilir; MapR M5, orta düzey bir abonelik yazılımı sunar; MapR M7, Apache Hadoop ve HBase için Pig, Hive, Sqoop ve daha fazlasını içeren eksiksiz bir dağıtımdır.