Video: Hadoop Dünyasına Giriş ve Temel Kavramlar (Hadoop Serisi 1) 2024
Hadoop, Apache Software Foundation tarafından geliştirilen ve açık kaynak kodlu bir veri işleme aracıdır. Hadoop, şu anda büyük ölçekli hesaplamayı daha uygun fiyatlı ve esnek hale getirmek için tasarlandığından, büyük hacim ve çeşitlilikteki verilerin taşınması için kullanılabilen bir programdır. Hadoop'un gelişiyle kitlesel veri işleme, önemli ölçüde daha fazla insana ve daha fazla organizasyona tanıtıldı.
Hadoop, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verilerin toplu akışlarını işlemek, işlemek ve gruplamak için mükemmel bir çözüm sunabilir. Hadoop'u kurup dağıtarak, sadece bir yerde eski bir veri ambarında oturduğunuz işlem veri kümesine güvenmemek yerine kuruluşunuzun tüm verisindeki bilgileri kullanmaya ve çizmeye başlamak için uygun maliyetli bir yol bulursunuz.
Hadoop, büyük ölçekli bilgisayar gereksinimleri için kullanılabilen en popüler programlardan biridir. Hadoop, büyük veri projelerinin çoğunun veri işleme gereksinimlerini karşılayabilecek bir harita ve azaltma katmanı sağlar.
Bazen Hadoop bile işlemek için veriler çok büyük ve hızlı olur. Bu durumlarda, kuruluşlar bunun yerine alternatif, daha özelleştirilmiş MapReduce dağıtımlarına yöneliyor.
Hadoop, verileri depolamak için emtia donanım kümeleri kullanır. Her bir kümedeki donanım bağlı ve bu donanım paylaşılan bir kümede paralel olarak çalıştırıldığında güçlü hesaplama olanakları sunan düşük maliyetli, düşük performanslı jenerik sunuculardan oluşan emtia sunucularından oluşmaktadır. Bu emtia sunucularına düğümler da denir. Malların hesaplanması, büyük verilerin taşınması ve depolanması ile ilgili maliyetleri önemli ölçüde azaltır.
Hadoop aşağıdaki iki bileşenden oluşur:
-
Dağıtılmış bir işlem çerçevesi: Hadoop, Hadoop MapReduce'yi dağıtık işlem çerçevesi olarak kullanır. Yine, dağılmış bir işlem çerçevesi , işleme görevlerinin düğüm kümeleri arasında dağıtıldığı ve böylece büyük veri hacimlerinin sistem genelinde çok hızlı bir şekilde işlenebileceği güçlü bir çerçevedir.
-
Dağıtılmış bir dosya sistemi: Hadoop, dağıtılmış dosya sistemi olarak Hadoop Dağıtılmış Dosya Sistemini (HDFS) kullanır.
Hadoop'ta çalışan uygulamaların iş yükleri Hadoop kümesinin düğümlerine bölünür ve çıktı HDFS'de saklanır. Hadoop kümesi binlerce düğümden oluşabilir. Giriş / çıkış (G / Ç) işlemlerinin maliyetlerini düşük tutmak için, Hadoop MapReduce işleri mümkün olduğunca verilere yakın olarak gerçekleştirilir.
Bu, azaltma görevleri işlemcilerinin, işleme konması gereken giden harita görev verilerine mümkün olduğunca yakın yerleştirildiği anlamına gelir. Bu tasarım, büyük veri işlemedeki hesaplama gereksinimlerini paylaşmayı kolaylaştırır.
Hadoop hiyerarşik organizasyonu da destekliyor. Düğümlerinden bazıları ana düğümler olarak sınıflandırılır ve diğerleri köle olarak sınıflandırılır. JobTracker , olarak bilinen ana hizmet, bir çok köle hizmetini kontrol etmek üzere tasarlanmıştır. Köle hizmetleri (ayrıca Görev İzleyicileri olarak adlandırılır) her düğüme birer tane dağıtılır. JobTracker TaskTracker'ları kontrol eder ve onlara Hadoop MapReduce görevleri atar.
Hadoop'un daha yeni bir sürümünde (Hadoop 2 olarak bilinir), Hadoop YARN adlı bir kaynak yöneticisi eklendi. Hadoop'taki MapReduce ile ilgili olarak YARN, kaynak yönetimi ve zamanlama işlevleri gerçekleştiren bütünleşik bir sistem görevi görür.
Hadoop, verileri toplu olarak işler. Sonuç olarak, gerçek zamanlı, akışlı veri ile çalışıyorsanız, büyük veri sorunlarınızı çözmek için Hadoop'u kullanamazsınız. Bu, birçok büyük veri sorunu türlerini çözmek için çok yararlı olduğunu söyledi.