SQL Erişimi ve Apache Hive - mankenler

Video: Bring your own keys on Apache Kafka with Azure HDInsight | Azure Friday 2024

Hadoop topluluğunda tartışmasız en yaygın veri sorgusu arayüzü Apache Hive'dır. Başlangıçta, Hive için tasarım hedefleri tam SQL uyumluluğu ve yüksek performans için değil, ancak Hadoop'a karşı toplu sorgular yayınlamaya ihtiyaç duyan geliştiriciler için kolay ve biraz tanıdık bir arayüz sunmak idi.

Bu oldukça parçalı yaklaşım artık çalışmıyor, bu nedenle gerçek SQL desteği ve iyi performans için talep artıyor. Hortonworks, Geliştirici kaynaklarını Hive'ı daha hızlı, petabayt seviyesinde ölçeklendirmek ve SQL standartlarına daha uyumlu hale getirmek için harcadığı Stinger projesini yaratarak bu talebe yanıt verdi. Bu çalışma üç aşamada verilecekti.

Aşama 1 ve 2'de, sorguların nasıl işlendiği ve geleneksel SQL veri türlerine ek destek olsun diye çeşitli optimizasyonlar gördünüz; daha verimli işleme ve depolama için ORCFile formatının eklenmesi; ve daha iyi performans için YARN ile entegrasyon.

Evre 3'te, Kovan'ı MapReduce'dan ayırabilen gerçekten önemli gelişmeler gerçekleşir. Özellikle, etkileşimli iş yükleri için tasarlanmış, Hadoop için alternatif bir işleme modeli olan Apache Tez'in kullanıma sunulmasını içerir.

Stinger projesine ek olarak, Hortonworks, Hive'in, veritabanı sistemlerinin ACID özelliklerine tam olarak uyarak satır düzeyindeki düzenlemeleri desteklemesini sağlamak için iddialı bir girişim başlattı: Atomicity, Consistency, Isolation levels ve Dayanıklılık.