Hadoop'daki Domuz Görevleri Çalıştırma Yerel ve Dağıtılmış Modları

Video: Hadoop Processing Frameworks 2024

İlk Pig komut dosyasını Hadoop'ta çalıştırmadan önce, Pig programlarının Pig sunucusu ile nasıl paketlenebileceği konusunda bir ele almanız gerekir.

Pig'in komut dosyalarını çalıştırmak için iki modu vardır:

Yerel mod: Tüm komut dosyaları tek bir makinede Hadoop MapReduce ve HDFS gerektirmeden çalıştırılır. Bu, Domuz mantığını geliştirmek ve test etmek için yararlı olabilir. Geliştiriciye küçük bir veri kümesi veya kodunuzu test ediyorsanız, yerel mod, MapReduce altyapısından daha hızlı olabilir.

Yerel mod Hadoop gerektirmez. Yerel modda çalıştırdığınızda, Domuzcuk programı yerel bir Java Sanal Makinesi bağlamında çalışır ve veri erişimi tek bir makinenin yerel dosya sistemi üzerinden yapılır. Yerel mod aslında Hadoop'un LocalJobRunner sınıfındaki MapReduce'un yerel bir simülasyonudur.
MapReduce modu (Hadoop modu olarak da bilinir): Domuz Hadoop kümesinde yürütülür. Bu durumda, Pig Komut Dosyası, daha sonra Hadoop kümesinde çalışan bir dizi MapReduce işine dönüştürülür.

İşlem yapmak istediğiniz terabayt veriniz varsa ve bir programı interaktif olarak geliştirmek istiyorsanız, işleri yavaş yavaş yavaşlatabilir ve deponuzu genişletmeye başlayabilirsiniz. Yerel mod, Pig programınızın mantığını (ve böcekleri çözebilmenizi) sağlamak için verilerinizin bir alt kümesiyle daha etkileşimli bir şekilde çalışmanıza olanak tanır.

İstediğiniz gibi ayarladıktan ve işlemleriniz düzgün şekilde gerçekleştikten sonra, MapReduce modunu kullanarak komut dosyasını tam veri kümesine göre çalıştırabilirsiniz.