Video: What is Big Data? - Computerphile 2024
Reduce fazı, anahtarları ve kişisel değer listelerini kullanarak, istemci uygulamasına normal olarak döndürülen anahtar / değer çifti kümesidir. Şimdiye kadar yapılan darbe: Büyük bir veri kümesi, giriş bölmeleri, olarak adlandırılan daha küçük parçalara bölünmüş ve her bir harita görevinin her biri bunlardan her birini işledi.
Bazı durumlarda, istenilen uygulama çıktısını oluşturmak için tek işleme aşamasının tamamı yeterlidir. Örneğin, veriler üzerinde basit bir dönüşüm işlemi uyguluyorsanız - örneğin, tüm metni büyük harfe çevirirken veya video dosyalarından anahtar kareleri çıkarmak istiyorsanız - yalnız aşamanıza ihtiyacınız olacaktır. (Bu, yalnızca harita yalnızca işi olarak bilinir.)
Ancak diğer pek çok durumda, harita görevleri çıktılarını yazdıklarında iş sadece yarım yapılır. Kalan görev, tüm ara sonuçları tek bir birleşik cevapta kaynatmaktır.
Her bir kaydı teker teker işleyen mapper görevine benzer şekilde, redüktör her tuşa ayrı ayrı işler. Normalde, azaltıcı, işlediği her anahtar için tek bir anahtar / değer çifti döndürür. Bununla birlikte, bu anahtar / değer çiftleri, geniş olabilmeniz ya da ihtiyacınız olan kadar küçük olabilir.
Redüktör görevleri tamamlandığında, her biri bir sonuç dosyası döndürür ve HDFS'ye (Hadoop Dağıtılmış Dosya Sistemi) depolar. Burada gösterildiği gibi, HDFS sistemi daha sonra bu sonuçları otomatik olarak tekrarlar.
Kaynak Yöneticisi'nin (veya Hadoop 1'i kullanıyorsanız JobTracker'in), giriş bölmelerinin yerel olarak işlenmesini sağlamak için harita görevlerine kaynak tahsis etmek için elinden gelenin en iyisini yapmaya çalışırsanız, redüktör görevleri için böyle bir strateji yoktur. Eşleştirici görev sonuç kümelerinin, redüktör görevleri tarafından işlenecek ağ üzerinden aktarılması gerektiği varsayılmaktadır.
Bu makul bir uygulamadır, çünkü yüzlerce veya hatta binlerce haritalama görevi ile, indirgeyici görevlerin aynı lokal önceliklendirmesine sahip olmanın pratik yolu yoktur.