Video: RHadoop - Integrating R with Hadoop | How to Integrate R, Hadoop | R Programming Tutorial | Edureka 2024
Makine öğrenme disiplini, zengin ve kapsamlı bir teknik kataloga sahiptir. Mahout, tabloya bir dizi istatistiksel araç ve algoritma getiriyor ancak bu modelleri MapReduce çerçevesine dönüştürme görevi zorlu olduğundan, yalnızca bu teknikler ve algoritmaların bir kısmını yakalamaktadır.
Zamanla Mahout, istatistiksel araç kutusunu genişletmeye devam edecektir, ancak o zamana kadar tüm veri bilimcileri ve istatistikçiler alternatif istatistiksel modelleme yazılımlarından haberdar olmalıdır - bu da R'nin geldiği yerdir.
R dili, güçlü ve popüler bir açık kaynak istatistiksel dil ve geliştirme ortamıdır. Veri araştırmaları, görselleştirme, istatistiksel analiz ve hesaplama, modelleme, makine öğrenimi ve simülasyon ile veri bilimcilerine yardımcı olabilecek zengin bir analitik ekosistemi sunar. R dili istatistikçiler, veri madencileri, veri analistleri ve (günümüzde) veri bilimcileri tarafından sıklıkla kullanılır.
R dil programcıları, bu yazının yazıldığı tarih itibariyle 3000'den fazla istatistiksel analiz paketi içeren Kapsamlı R Arşiv Ağı (CRAN) kütüphanelerine erişebilirler. Bu eklentiler, herhangi bir R projesine çekilebilir ve sınıflandırma, regresyon, kümeleme, doğrusal modelleme ve daha özel makine öğrenme algoritmaları için zengin analitik araçlar sağlar.
Vektörler, skalerler, veri çerçeveleri (matrisler) ve benzerleri gibi basit veri yapısı türlerini bilenlerin erişebildiği dil, istatistikçiler ve programcılar tarafından yaygın olarak kullanılmaktadır.
Kutudan çıkarsa, R dilini kullanırken karşılaşılan önemli tuzaklardan biri, eş zamanlı görevler yürütmek için sağladığı destek eksikliğidir. R gibi istatistiksel dil araçları sıkı analizde mükemmel, ancak paralel hesaplamalar için ölçeklenebilirlik ve yerel desteğe sahip değildir.
Bu sistemler dağıtılabilir değildir ve modern petabayt büyük veri dünyasında ölçeklendirilebilir olarak geliştirilmemiştir. Bu kısıtlamaları aşma önerileri, R'nin kapsamını bellek içi yükleme ve tek bilgisayar yürütme ortamlarının ötesine taşımakla birlikte, kolayca yerleştirilebilen istatistiksel algoritmalar için R'nin yeteneklerini koruyor.