Video: What Does the Hortonworks Cloudera Merger Mean? 2024
Cloudera, büyük veri pazarında önde gelen bir Apache Hadoop yazılım ve hizmet sağlayıcısıdır. Apache Matkap gibi Cloudera'nın Impala teknolojisi, Hadoop kullanıcıları için etkileşimli sorgu yanıt süresini artırmayı amaçlıyor. Apache Hive, Hadoop kullanıcıları için tanıdık ve güçlü bir sorgu mekanizması sağlamıştır, ancak Hive'ın MapReduce'a güvenmesi nedeniyle sorgu yanıt süreleri genellikle kabul edilemez. Cloudera'nın bu sorunun cevabı Impala.
Cloudera, Apache Hive'dan yararlanan MapReduce katmanını değiştirmek için C ++ ile yazılmış bir MPP sorgu motoru geliştirdi. Dremel ve Drill'ın aksine, Cloudera, hızlı, etkileşimli Hadoop sorgularının cevabı, yerli bir C ++ MPP motorunun (bir Java motoru yerine) kullanılmasına karar verdi.
Impala'nın bir programlama arabirimi olarak HiveQL'yi kullandığını ve Impala'nın Query Exec Engine'leri, verileri işleme görevleriyle birlikte konumlandırmanın Hadoop yaklaşımıyla uyumlu olarak HDFS veri düğümleriyle birlikte bulunduğunu unutmayın. Impala, bir veri deposu olarak HBase'yi de kullanabilir. Bu anlamda, Impala Apache Hadoop'un bir uzantısıdır ve MapReduce modelinin tepesinde Hive'ye çok yüksek performanslı bir alternatif sağlar.
Cloudera ve Twitter, Impala ile birlikte kullanılabilen ve GitHub'da açık kaynak olarak kullanılabilen yeni Hadoop dosya biçiminin geliştirilmesine öncülük etti. Parke dosya biçimi, verileri Hadoop'ta depolamak için sağlam, sütunlu bir ortam sağlar. Oldukça verimli sıkıştırma ve kodlamayı destekler ve iç içe geçmiş veri yapılarının depolanmasında etkilidir.
Cloudera'nın Impala teknolojisi de Google'ın Dremel buluşundan esinlendi.