Video: Data Analysis 4: Data Transformation - Computerphile 2024
Büyük veri çerçevenizi daha etkili bir şekilde yönetmenize ve analiz etmenize yardımcı olacak yeni araç setleri mevcut olmaya devam etse de, ihtiyacınız olanı elde edemeyebilirsiniz. Buna ek olarak, bir dizi teknoloji büyük veri analizini ve kullanılabilirlik, ölçeklenebilirlik ve yüksek performans gibi gereksinimleri destekleyebilir. Bunların bazıları büyük veri uygulamaları, sütunlu veritabanları, bellek içi veritabanları, ilişkisiz veritabanlar ve büyük paralel işleme motorlarıdır.
Peki, büyük veri analizi söz konusu olduğunda ticari kullanıcılar ne arıyorlar? Bu sorunun cevabı, çözmeye çalıştıkları iş sorunun türüne bağlıdır. Büyük bir veri uygulaması analiz çerçevesi seçerken bazı önemli hususlar şunlardır:
-
Çoklu veri türleri için destek: Birçok organizasyon, büyük veri dağıtımlarının bir parçası olarak her türlü veriyi dahil ediyor veya dahil etmeyi umuyor; yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriler de dahil olmak üzere.
-
Toplu işleme ve / veya gerçek zamanlı veri akışlarını yönetme: Eylem yönelimi, gerçek zamanlı veri akışları üzerinde yapılan analizin bir ürünüdür ve karar yönelimi toplu işlemle yeterince sunulabilir. Değişik analiz biçimleri içerecek şekilde geliştikçe, bazı kullanıcılar her ikisini de isteyecektir.
-
Çevrenizde var olan şeylerden yararlanın: Doğru içeriği elde etmek için, büyük veri analizi çerçevesindeki mevcut verileri ve algoritmaları kullanmanız önemlidir. Düşük gecikmenin üstesinden gelin:
-
Yüksek veri hızı ile uğraşacaksanız, hız ve performans gereksinimlerini destekleyebilecek bir çerçeveye ihtiyacınız olacak. Ucuz bir depolama alanı sağlayın:
-
Büyük veriler, işlem yapmak ve / veya saklamak istediğiniz verinin miktarına bağlı olarak potansiyel olarak çok miktarda depolama anlamına gelir. Bulut dağıtımları ile entegrasyon:
-
Bulut talep üzerine depolama ve hesaplama kapasitesi sağlayabilir. Bulanmayı bir analiz "kum havuzu" olarak kullanan şirketler giderek artmaktadır. "Bulut giderek artan bir şekilde, hibrit bir modeldeki mevcut sistemleri bulut dağıtımlarıyla bütünleştirmek için önemli bir dağıtım modeli haline geliyor. Bu özelliklerin hepsi önemli olmakla birlikte, bir çerçeveden uygulama yaratmanın algılanmış ve gerçek değeri dağıtımın daha hızlı zamanıdır.Tüm bu yetenekleri göz önünde bulundurarak, Süreklilik adlı bir şirketten büyük bir veri analizi uygulama çerçevesi düşünün.
-
Süreklilik AppFabric, büyük veri uygulamalarının geliştirilmesini ve kullanılmasını destekleyen bir çerçevedir. AppFabric'in kendisi, özellikle düşük düzeyli büyük veri teknolojilerinin kaprislerini ortadan kaldırmak için tasarlanmış bir dizi teknolojidir. Uygulama oluşturucu, geliştiricinin yerel olarak ve tanıdık bir ortamda hata oluşturması, test etmesi ve hata ayıklamasına izin veren bir Eclipse eklentisidir. AppFabric özellikleri şunları içerir:
Gerçek zamanlı analiz ve tepki için akış desteği
Birleştirilmiş API, büyük veri altyapılarına yazma gereksinimini ortadan kaldırır
Basit sonuçlar için sorgu arabirimleri ve takılabilir sorgu işlemcileri için destek
-
Sorgulanabilir verileri ve Birleştirilmiş API'dan erişilebilen tabloları temsil eden veri kümeleri
-
Verilerin girdi veya çıktı biçimlerinden veya alttaki bileşen özelliklerinden bağımsız olarak okunması ve yazılması
-
İşlem temelli olay işleme
-
Tek bir düğüme çok modlu dağıtım veya bulut
-
Bu yaklaşım, büyük bir veri ortamı yaratmak için gereken araçların ve teknolojilerin bolluğu nedeniyle büyük veri uygulaması geliştirme için bir çekişme kazanacaktır.
-
İşbirliği eksikliği pek çok açıdan pahalıya mal olabilir. Büyük kuruluşlar, işbirliklerini yönlendiren araçlardan yararlanabilir. Benzer çalışmaları yapan insanlar çoğunlukla, birbirlerinin çalışmalarını çoğaltmaya neden olan çabalarından habersizdirler.
-
Bir uygulama çerçevesinin iyi bir diğer örneği OpenChorus'tur. Büyük veri analizi uygulamalarının hızla geliştirilmesinin yanı sıra, işbirliğini de destekler ve yazılım geliştiricileri için araç bütünleştirme, sürüm denetimi ve yapılandırma yönetimi gibi önemli birçok özellik sağlar.
Open Chorus, EMC Corporation tarafından tutulan ve Apache 2.0 lisansı ile edinilebilen bir projedir. EMC, ayrıca, Koro'nun ticari bir sürümünü üretir ve destekler. Hem Open Chorus hem de Chorus, canlı ortak ağlara ve çok sayıda bireysel ve kurumsal katılımcıya sahiptir.
Open Chorus, genel bir çerçevedir. Öncü özelliği, büyük veri kaynaklarını, analizleri, analiz tekniklerini ve görselleştirmeleri paylaşmak için ortak bir "merkez" oluşturabilme özelliğidir. Open Chorus şunları sağlar:
Analiz araçları, eserleri ve tam versiyonlama, değişiklik takibi ve arşivleme teknikleri deposu
Topluluk üyeleri tarafından kolaylıkla sağlanan ve kendine yeterli olan çalışma alanları ve sandbox'lar
ısı haritaları, zaman serileri, histogramlar vb.
-
Hadoop, meta veri, SQL depoları ve yorumlar da dahil olmak üzere tüm veri varlıklarının federal araması
-
Keşif, paylaşım ve beyin fırtınası yapmayı teşvik eden sosyal ağ benzeri özellikler yoluyla işbirliği
-
Üçüncü taraf bileşenlerin ve teknolojilerin entegrasyonu için genişletilebilirlik