Başlangıçta R-mankenleri ile R

Başlangıçta, büyük veriler ve R doğal arkadaş değildi. R programlama, tüm nesnelerin tek bir makinenin ana belleğine yüklenmesini gerektirir. Bu mimarinin sınırlamaları, büyük veri denklemin bir parçası olduğunda hızla gerçekleşir.

Bunun aksine, Hadoop gibi dağıtılmış dosya sistemleri güçlü istatistiksel teknikler içermiyor ancak karmaşık işlemleri ve görevleri ölçeklemek için ideal. Dikey ölçeklendirme çözümleri - yüksek maliyetli süper hesaplama donanımına yatırım gerektirir - genellikle dağıtılan, emtia donanım kümeleri tarafından sunulan maliyet değeri getirisi ile rekabet edemez.

R dilinin bellek içi, tek makine sınırlamaları uyarınca, veri bilimcileri genellikle analizin mevcut örnek verilerden sadece bir alt kümeyle sınırlandırılması gerekiyordu. Hadoop'la daha derin entegrasyon öncesinde, R dilindeki programcılar, tek bir makinadaki büyük veri setlerinin neden olduğu bellek içi zorlukların üstesinden gelmek için ölçeklendirme stratejisi önerdi.

Bu, ileti gönderme sistemleri ve çağrılama yöntemleri kullanılarak gerçekleştirildi. Bu teknik, aynı anda ana belleğe depolanamayacak kadar büyük veri setleri üzerinde çalışmayı kolaylaştırabilir; Bununla birlikte, düşük seviye programlama yaklaşımı, paralel programlama paradigmalarına alışkın olanlar için dik bir öğrenme eğrisi sunmaktadır.

Alternatif yaklaşımlar, R istatistik yeteneklerini Hadoop'un dağıtılmış kümeleriyle iki yolla birleştirmeye çalışırlar: SQL sorgu dilleriyle arabirim kurma ve Hadoop Streaming ile entegrasyon. Birincisi, Hive ve Domuz gibi mevcut SQL veri ambarlama platformlarından yararlanılması hedefleniyor. Bu şemalar, istatistiksel işleri Hadoop verisi üzerinden yürütmek için üst düzey bir programlama yapmak için SQL tarzı ifadeler kullanarak Hadoop iş programlamasını basitleştirir.

MapReduce işleri Java dışındaki dillerde (R dahil) programlamak isteyen programcılar için ikinci bir seçenek Hadoop'un Akış API'sını kullanmaktır. Kullanıcı tarafından gönderilen MapReduce işleri, programcı tarafından orijinal olarak girilen dile bakılmaksızın, Java uyumlu girişin Hadoop'a garanti edildiği UNIX standart akışları ve serileştirme yardımıyla veri dönüşümlerine tabi tutulur.

Geliştiriciler, MapReduce'un dağıtılmış hesaplama kapasitesinden ve HDFS'nin neredeyse sınırsız depolama kapasitesinden yararlanılarak R tarafından istifade edilebilecek çeşitli stratejileri keşfetmeye devam ediyor.

Hadoop with R'nin entegrasyonu IBM'den sağlanan tekliflerle devam ediyor (BigInsights'ın bir parçası olarak Büyük R) ve Devrim Analizi (Revolution R Enterprise). Üst düzey programlama ve sorgulama dillerini Hadoop ile entegre eden, RHive ve RHadoop gibi köprü çözümleri de mevcuttur.

Temelde, her sistem, R dilinin derin analitik kabiliyetlerini daha büyük veri kümelerine ulaştırmayı hedeflemektedir.

RHive

RHive çerçevesi, R dili ile Hive arasında köprü görevi görür. RHive, R'nin zengin istatistik kitaplıklarını ve algoritmalarını, Hive'nin SQL benzeri sorgu dilini (HiveQL) R'ye özgü işlevlerle genişleterek Hadoop'ta saklanan verilere sunar. Rive işlevleri sayesinde, HiveQL'yi, Hive kullanılarak kataloğa girdiğiniz Hadoop kümenizdeki verilere R istatistiksel modelleri uygulamak için kullanabilirsiniz.

RHadoop

R programcıları için kullanılabilecek bir diğer açık kaynak çerçevesi, Hadoop ile verilerin dağıtımını ve analizini yönetmeye yardımcı olan paketlerin bir toplamı olan RHadoop'tur. Rmr2 paketi, R dilinin Hadoop uyumlu MapReduce işlerine dönüştürülmesini destekler (verimli, düşük seviye MapReduce kodu üretir) üst düzey R kodundan).

rhdfs: rhdfs paketi, HDFS mağazaları üzerinden dosya yönetimi için bir R dil API'si sağlar. Kullanıcılar, rhdf'leri kullanarak HDFS depolarından bir R veri çerçevesine (matris) okuyabilir ve benzer şekilde bu R matrislerinden verileri tekrar HDFS depolama alanına yazabilir.
rhbase: rhbase paketleri de bir R dil API'si sağlar ancak yaşamdaki amacı, HDFS dosyaları yerine HBase mağazaları için veri tabanı yönetimini ele almaktır.
Revolution R Revolution R (Revolution Analytics ile), Hadoop dağıtılan sistemlerde R entegrasyonunu destekleyen ticari bir R ürünüdür. Revolution R, Hadoop'ta R için gelişmiş performans, işlevsellik ve kullanışlılık sağlamayı taahhüt eder. R'ye benzer derin analizler sunmak için, Revolution R, kurumsal ölçekli büyük veri koleksiyonları için özel olarak geliştirilen bir istatistiksel analiz algoritması olan ScaleR kütüphanesini kullanmaktadır.

ScaleR, R geliştiricisinin MapReduce'da değil, istatistiksel algoritmalarına odaklanmalarına izin vermek için, Hadoop kümelerinde R program kodunu hızlı bir şekilde sunmayı amaçlıyor. Ayrıca, veri hazırlama, görselleştirme ve istatistiksel testler gibi sayısız analitik görevleri de yürütür.

IBM BigInsights Big R

Big R, R'nin IBM'in Hadoop ürünü olan BigInsights ile arasında uçtan uca entegrasyon sağlıyor ve R geliştiricilerinin Hadoop verilerini analiz etmesine olanak tanıyor. Amaç, R'nin programlama sözdizimini ve kodlama paradigmalarını kullanmayı ve verilerin HDFS'de kalmasını sağlamasıdır. R veri tipleri, bu veri depolarına yakınlık sağlar; bu da R geliştiricilerinin düşük düzey MapReduce yapılarını veya herhangi bir Hadoop'a özgü kodlama dili (Pig gibi) hakkında düşünmesi gerekmediği anlamına gelir.

BigInsights Big R teknolojisi, düz dosyalar, HBase ve Hive depolama biçimleri de dahil olmak üzere çoklu veri kaynaklarını desteklerken Hadoop kümesinde R kodunun paralel ve bölünmüş olarak çalıştırılmasını sağlar. Temel HDFS ve MapReduce çerçevelerindeki karmaşıklıkların çoğunu gizler ve Big R işlevlerinin hem yapılandırılmış hem de yapılandırılmamış veriler üzerinde kapsamlı veri analizi gerçekleştirmesine izin verir.

Sonunda, Big R'in istatistiksel motorunun ölçeklenebilirliği, R geliştiricilerinin hem önceden tanımlanmış istatistiksel tekniklerden yararlanmasına hem de yeni algoritmaların yazarlarına izin vermesine izin verir.