Video: What is Big Data? - Computerphile 2024
İstatistiksel modellerin paralel çalışmasına dönüştürmek zor bir iştir. Paralel programlama için geleneksel paradigmada, bellek erişimi, iş parçacıkları - işleci tarafından oluşturulan ve tek bir paylaşılan belleği birden çok işlemci arasında dağıtmak için alt işlemlerle düzenlenir.
İki veya daha fazla iş parçacığı aynı anda paylaşılan veriyi değiştirmeye çalışırken rakip iş parçacıkları arasındaki yarış koşulları gibi faktörler, algoritmanızın performansını etkileyebilir ve ayrıca programınızın çıktılarını gösteren istatistiksel sonuçların hassaslığını etkileyebilir. Büyük numune setlerinin uzun süreli analizleri için.
Bu sorunun pragmatik bir yaklaşımı, birçok istatistikçinin MapReduce'un içeriğini ve bilgisini bilmeyeceğini (ve bunun tersini) varsaymaktır ve ne de olsa tüm tuzaklardan haberdar olmalarını bekleyemezsiniz paralel programlama gerektirir. Hadoop projesine katkıda bulunan kişiler, bu gerçekleri göz önünde bulundurarak istatistiksel araçları akılda tutuyor (ve geliştirmeye devam ediyor).
Sonuç: Hadoop, istatistikçiyi, paralel programlamanın dikkat çekici unsurlarıyla aşırı yüklemeden istatistiksel modelleme ve analiz gerçekleştirmek için gereken algoritmaları uygulamak için birçok çözüm sunuyor.