Video: SAP Sybase IQ Big Data Analytics Platform Solves your Big Data Issues [SaveYouTube.com].mp4 2024
Analitik ortamın ne olduğunu bulmaya çalıştığınızda Gelecekte olduğu gibi görünse de, Hadoop tabanlı açılış alanının kalıplarına zaman zaman ve tekrar rastlarsınız. Gerçekten de, artık vadelere yönelik bir tartışma bile değil çünkü iniş bölgesi, ileriye dönük şirketlerin şimdi BT maliyetlerini azaltmaya ve yenilikçi veri analizi için bir platform sağlamaya çalıştıkları yolu haline geldi.
Peki iniş bölgesi tam olarak ne? En basit düzeyde, iniş bölgesi yalnızca verilerin işletmenize gideceği merkezi bir yerdir - örneğin, operasyonel veritabanlarından haftalık verilerin çıkarılması veya günlük dosyaları oluşturan sistemlerden. Hadoop, bu sebeplerden ötürü verilerin toplanacağı yararlı bir depodur:
-
Her türlü veriyi işleyebilir.
-
Kolayca ölçeklenebilir.
-
Ucuzdur.
-
Verileri Hadoop'a götürdükten sonra, verileri çeşitli yollarla sorgulama, analiz etme veya işleme esnekliği yaşarsınız.
Bu diyagram sadece hikayenin bir bölümünü göstermektedir ve hiçbir şekilde tamamlanmamıştır. Sonuçta, verilerin iniş bölgesinden veri ambarına nasıl taşındığını bilmelisin vb.
Bir veri ambarını modernize etme konusundaki tartışmanın başlangıç noktası, kuruluşların veri ambarlarını nasıl kullandıkları ve BT departmanlarının karşılaştıkları güçlüklerdir.
1980'lerde, kuruluşlar operasyonel bilgilerinizi ilişkisel veritabanlarına (satış işlemleri, örneğin tedarik zinciri statüsleri) depolamaya başladıklarında, iş dünyası liderleri bu ilişkisel veriden üretilen raporlar istediler. En eski ilişkisel mağazalar operasyonel veritabanlarıdır ve çevrimiçi işlem işleme (OLTP) için tasarlanmıştır, böylece kayıtlar mümkün olduğunca çabuk eklenebilir, güncellenebilir veya silinebilir.
Bu, büyük ölçekli raporlama ve analiz için pratik bir mimari, bu nedenle İlişkisel Çevrimiçi Analitik İşleme (ROLAP) veritabanları bu ihtiyacı karşılamak için geliştirildi. Bu, yepyeni bir RDBMS evrimine yol açtı: ayrı bir varlık olan ve bir kuruluşun operasyonel veri mağazalarının yanında yaşayan bir veri ambarı, .
Bu, daha yüksek verimlilik için amaçlara özel araçlar kullanarak ortaya çıkıyor: tekrarlanan analiz ve raporlamayı destekleyecek şekilde tasarlanmış işlemler ve veri ambarları verimli bir şekilde işlemek üzere tasarlanmış operasyonel veri depolarınız var.
Aşağıdaki nedenlerle veri ambarları artan bir stres altında:
-
Daha uzun veri sürelerini çevrimiçi tutmak için artan talep.
-
Verileri diğer depolar ve veri martlarında kullanım için dönüştürmek için kaynak işleme talebi arttı.
-
Yenilikçi analitik talebin artması, analistlerin depo verileriyle ilgili sorular önermesini ve halihazırda yapılan düzenli raporlamaların üstünde yer almasını sağlıyor. Bu, önemli ek işleme tabi tutulabilir.
Şekilde, rakamın en sağında listelenen çeşitli analizler için birincil kaynak olarak sunulan veri ambarını görebilirsiniz. Burada, Hadoop'un çeşitli gelen veri kaynaklarından gelen verileri depoladığı bir iniş bölgesi kavramını da görüyorsunuz.
Bir Hadoop iniş bölgesini etkinleştirmek için, çeşitli veri kaynaklarından HDFS'ye veri yazabilmeniz için sağlamanız gerekir. İlişkisel veritabanlarında, Sqoop'un kullanılması için iyi bir çözüm olacaktır.
Ancak verilerin inşası yalnızca başlangıçtır.
Birçok kaynaktan açılış bölgesine veri taşıdığınızda kaçınılmaz olarak karşılaşacağınız bir sorun veri kalitesidir. Şirketlerin, önemli ayrıntıların farklı olduğu, örneğin bir müşterinin "D" olarak bilinen birçok operasyonel veritabanına sahip olması yaygın bir durumdur. deRoos "ve bir başka veritabanında" Dirk deRoos ".
Başka bir kalite sorunu, müşterilerin veya personelin elle girdiği veri girişine büyük bir güven duyduğu sistemlerde yatıyor - burada, ilk alan adlarını, soyadları veya diğer veri alanlarındaki yanlış bilgileri bulmak nadir değildir.
Veri kalitesi sorunları veri ambarı ortamları için büyük önem taşır ve bu nedenle, diğer sistemlerden gelen veriler depoya yüklenirken işlenirken temizleme ve doğrulama adımlarına çok fazla çaba sarf eder. Her şey güven e kadar gelir: Karşı sorduğunuz veriler kirli ise, raporlarınızdaki cevaplara güvenemezsiniz.
Böylece, Hadoop iniş bölgenizdeki farklı kaynaklardan birçok farklı veri setine erişebilme konusunda büyük potansiyel olsa da, verilerin kalitesini ve verilere ne kadar güvenebileceğinizi hesaba katmanız gerekir.