Video: Büyük Veri ve Apache Cassandra Giriş 1 2024
MapReduce , büyük setlerin paralel dağıtılmış işlemesine olanak tanıyan bir programlama paradigması. veri, onları tuple takımlarına dönüştürdükten sonra, bu tuple'leri daha küçük tuple takımlarına birleştirip azaltarak. Düzensizlik açısından, MapReduce büyük verileri alacak ve büyük verileri küçük veya normal boyutlu verilere dönüştürmek için paralel dağıtılmış bilgi işlem yöntemini kullanacak şekilde tasarlandı.
Paralel dağıtılmış işlemler , işlem verilerini emtia sunucularının kümelerine dağıtarak çok miktarda verinin çok hızlı bir şekilde işlendiği güçlü bir çerçeveyi belirtir. MapReduce ile ilgili olarak, tuple , verilerin gruplanıp sıralanması ve işlenmesi için anahtar / değer çifti anlamına gelir.
MapReduce işleri, harita üzerinden işler ve dağıtılan bir sunucu grubu üzerinde işlem sıralarını azaltır. harita görevi 'da, verilerinizi anahtar-değer çiftlerine havale edersiniz, dönüştürün ve filtrelersiniz. Ardından verileri işlemek üzere düğümlere atarsınız.
Azaltma görevi 'da, bu verileri daha küçük boyutlu veri kümelerine topluyorsunuz. Azaltma adımındaki veriler, anahtarı , kayıt tanımlayıcısı olarak davranır ve değerinde , tanımlanan değer olduğu yerde, standart bir anahtar / değer biçimi dönüştürülür tuşuyla. Kümelerin bilgisayar düğümleri haritayı işler ve kullanıcı tarafından tanımlanan görevleri azaltır. Bu çalışma aşağıdaki iki basamağa uygun olarak yapılır:
-
Verileri eşleştirin.
Gelen veriler önce anahtar / değer çifti cinsinden temsil edilmeli ve parçalara ayrılmalı ve bunlar daha sonra görevlerin eşleştirilmesi için atanmalıdır. Her bilgi işlem kümesi - birbirine bağlı ve paylaşılan bir hesaplama görevi gerçekleştiren bir grup düğüm - daha sonra kendi düğümleri arasında dağıtılan bir dizi harita görevine atanır.
Anahtar / değer çifti işlendikten sonra ara anahtar / değer çiftleri oluşturulur. Ara anahtar / değer çiftleri, anahtar değerlerine göre sıralanır ve bu liste, yeni bir fragman kümesine bölünür. Bu yeni fragmanların sayısını ne olursa olsun, azaltma görevlerinin sayısı ile aynı olacaktır.
-
Verileri azaltın.
Her azaltma görevinin kendisine atanmış bir parçası var. Azaltma görevi sadece parçayı işler ve aynı zamanda bir anahtar / değer çifti olan bir çıktı üretir. Azaltmak görevler de kümenin farklı düğümleri arasında dağıtılır. Görev tamamlandıktan sonra, nihai çıktı bir dosya sistemine yazılır.
Kısacası, hızlı ve verimli bir şekilde kaynatabilirsiniz ve haritayı kullanarak ve verilerinizi (anahtar, değer) çiftleriyle etiketlemek ve görevleri azaltmak suretiyle büyük bir hacim, hız ve çeşitli veri anlamaya başlayın ve daha sonra azaltın toplama işlemleri aracılığıyla daha küçük veri kümelerine dönüştürürler - bir veri kümesindeki birden çok değeri tek bir değere birleştiren işlemler.MapReduce mimarisinin bir diyagramı burada bulunabilir.
Verileriniz, anahtarlar, değerler ve toplama yoluyla etiketlenip işlenmeye kendilerini borç vermiyorsa, genellikle değerini eşleştirin ve azaltın, ihtiyaçlarınıza uygun değildir. MapReduce'u bir Hadoop çözümünün bir parçası olarak kullanıyorsanız, nihai çıktı, Hadoop Dağıtılmış Dosya Sistemi (HDFS) üzerine yazılır. HDFS, büyük verileri depolamak için kullanılan emtia sunucuları kümelerini içeren bir dosya sistemidir. HDFS, depolama işlemlerini ucuz emtia sunucularının kümelerine dağıtarak, büyük veri taşıma ve depolama işlemlerini mali açıdan mümkün kılmaktadır.