Video: Hadoop Processing Frameworks 2024
Pig Latin, bir veri akışı ve verilere akarken uygulanan bir dizi dönüşümü tanımladığınız bir veri akışı dilidir Başvurunuz aracılığıyla. Bu, bir dizi talimat yazdığınız bir kontrol akışı diline (C veya Java gibi) tersidir.
Kontrol akışı dillerinde, döngüler ve koşullu mantık (bir if ifadesi gibi) gibi yapılar kullanırsınız. Pig Latin'de döngüler ve if ifadeleri bulamazsınız.
Pig ile çalışmanın Harita ve Küçültme programları yazmaktan çok daha kolay bir kürek sırası olduğuna ikna etmeniz gerekirse, bazı gerçek Pig sözdizimini inceleyerek başlayın:
A = YÜK 'data_file. Txt';. B = GRUP …; … C = FİLTRE …;. Çöp Bişi;. MAĞAZA C 'SONUÇLAR';
Bu örnekteki bazı metinler aslında İngilizce gibi görünüyor, değil mi? En azından bu noktada çok korkunç değil. Sırayla her bir çizgiyi inceleyerek bir Domuz programının temel akışını görebilirsiniz. (Bu kodun bir komut dosyasının parçası olabileceğini veya Grunt adlı interaktif kabukta bulunabileceğini unutmayın.)
-
Yükle: Önce manipüle etmek istediğin veriyi yükle (LOAD).
Tipik bir MapReduce işinde olduğu gibi, bu veriler HDFS'de saklanır. Verilere erişmek için bir Pig programı için önce Pig'e hangi dosyayı veya dosyaları kullanacağını söyleyin. Bu görev için LOAD 'data_file' komutunu kullanırsınız.
Burada 'data_file' bir HDFS dosyası veya bir dizin belirtebilir. Bir dizin belirtilirse, bu dizindeki tüm dosyalar programa yüklenir.
Veriler Pig'in doğal olarak erişilemeyen bir dosya biçiminde depolanması halinde, okunabilen kullanıcı tanımlı bir işlev belirtmek için isteğe bağlı olarak LOAD deyimine USING işlevini ekleyebilirsiniz. ve yorumlayabilir).
-
Dönüşümü: Veriyi, kaputun altındaki ve kendinizle ilgilenmeniz gereken herhangi bir şeyden uzaklaşmış bir dizi Dönüşümler yoluyla çalıştırırsanız, Harita ve Azalt görevlerine dönüştürülür.
Dönüşüm mantığı, tüm veri işlemenin yapıldığı yerdir. Burada, ilgi çekmeyen satırları filtreleyebilirsiniz, iki veri dosyası setini birleştirin, toplama oluşturmak için GROUP verileri, ORDER sonuçları ve daha fazlasını yapın.
-
Dökümü: Son olarak, sonuçları ekranda
veya
Store (STORE) sonuçlarına döküyorsunuz (DÖKME).
Genellikle, programlarınızı hata ayıkladığınızda çıktıyı ekrana göndermek için DUMP komutunu kullanırsınız. Programınız üretime girdiğinde, DUMP çağrısını bir MAĞAZA çağrısı olarak değiştirmeniz yeterlidir; böylece, programlarınızın çalıştırılmasından kaynaklanan sonuçların daha ileri işlem veya analiz için bir dosyada saklanır.