İçindekiler:
Video: Veri Tabanı vs Uygulama Katmanı Karmaşıklığı (Soru Cevap 22 Şubat 2016) 2024
Büyük veri mimarisinin de kuruluşunuzun destek altyapısıyla uyumlu bir şekilde çalışması gerekiyor. Örneğin, sıcaklığın, tuzluluk derecesinin, tortu yeniden süspansiyonunun ve bir dizi diğer biyolojik, kimyasal ve fiziksel özelliklere sahip gerçek zamanlı bir veri verildiğinde, kıyı bölgelerinde petrole sondaj yapılmasının güvenli olup olmadığını belirlemek için modeller geliştirmekle ilgileniyor olabilirsiniz. su sütunu.
Bu modelin geleneksel sunucu yapılandırmasıyla çalışması günler alabilir. Bununla birlikte, dağıtılmış bir hesaplama modeli kullanarak günlerce süren şey birkaç dakika sürebilir.
Performans, kullanacağınız veritabanı türünü de belirleyebilir. Örneğin, bazı durumlarda, çok farklı iki veri öğesinin nasıl ilişkili olduğunu anlamak isteyebilirsiniz. Bir sosyal ağdaki buzz'lar ile satıştaki büyüme arasındaki ilişki nedir? Yapılandırılmış, ilişkisel bir veritabanından isteyebileceğiniz tipik bir sorgu değildir.
Bir grafik veritabanı, "düğümleri" veya varlıkları "özelliklerinden" veya bu varlığı tanımlayan bilgiden "düğümler" veya düğümler ve özellikler arasındaki ilişkiden ayırmak için özel olarak tasarlandığı için daha iyi bir seçenek olabilir. Doğru veritabanını kullanmak da performansı artıracaktır. Genellikle grafik veritabanı bilimsel ve teknik uygulamalarda kullanılacaktır.
Diğer önemli operasyonel veritabanı yaklaşımları, satırlardan ziyade sütunlarda bilgileri etkin bir şekilde depolayan sütunlu veritabanları içerir. Giriş / çıkış son derece hızlı olduğu için bu yaklaşım daha hızlı bir performansa neden olur. Coğrafi veri saklaması denklemin bir parçası olduğunda, uzamsal bir veritabanı, nesnelerin alanla nasıl ilişkili olduğuna bağlı olarak verileri depolamak ve sorgulamak üzere optimize edilir.
Büyük veri hizmetleri ve araçları düzenleyin
Kuruluşların kullandığı tüm veriler faal değildir. Artan miktarda veri, makinelerden veya sensörlerden gelen veriler ve devasa kamu ve özel veri kaynakları da dahil olmak üzere, oldukça organize veya açık olmayan çeşitli kaynaklardan geliyor. Geçmişte, çoğu şirket bu geniş miktarda veriyi yakalayamadı veya depolayamadı. Bu sadece çok pahalı ya da çok ezici oldu.
Şirketler veri yakalamış olsalar bile, bu konuda hiçbir şey yapacak araçlara sahip değillerdi. Çok az sayıda araç, bu muazzam miktarda veriyi anlamlandırabilir. Var olan araçlar kullanması karmaşıktı ve makul bir zaman aralığında sonuçlar üretmedi.
Sonuçta, bu verileri analiz etmek için büyük çaba harcamaya gerçekten istekli olanlar verilerin anlık görüntüleriyle çalışmaya zorlandı.Bu, belirli bir anlık görüntüde olmadığı için önemli olayların eksik olmasının istenmeyen etkisine sahiptir.
Büyük Veri için MapReduce, Hadoop ve Büyük Tablo
Bilgi işlem teknolojisinin gelişimi ile çok büyük miktarda veriyi yönetmek artık mümkün. Sistem fiyatları düşmüş ve sonuç olarak, dağıtılmış bilgi işleme için yeni teknikler ana akım olmuştur. Asıl gelişme Yahoo gibi şirketler oldu!, Google ve Facebook, ürettikleri büyük miktarda veriden para kazanmada yardıma ihtiyaç duyduklarının farkına vardı.
Gelişmekte olan bu şirketler, büyük miktarda veriyi depolamak, erişmek ve analiz etmelerini sağlayacak yeni teknolojiler bulmak zorundaydı, böylece gerçek zamanlı olarak büyük miktarda veri, ağlarındaki katılımcılar hakkında bu kadar çok veriye sahip olmanın avantajlarından para kazanabildiler.
Sonuçta ortaya çıkan çözümler veri yönetimi pazarını değiştiriyor. Özellikle, MapReduce, Hadoop ve Big Table'deki yenilikler, yeni nesil veri yönetimine yol açan kıvılcımlar olduğunu kanıtladı. Bu teknolojiler en temel sorunlardan birine değinir - büyük miktarda veriyi etkili, uygun maliyetli ve zamanında işleme yeteneği.
MapReduce
MapReduce, toplu modda çok miktarda veriyle verimli bir şekilde bir dizi işlev yürütmek için Google tarafından tasarlanmıştır. "Harita" bileşeni, programlama sorununu veya görevlerini çok sayıda sistemde dağıtır ve görevlerin yerleşimini yönetir. Ayrıca yükü dengeler ve arıza gidermeyi yönetir. "Reddet" adı verilen başka bir işlev, sonuç sağlamak için tüm öğeleri bir araya toplar.
Big Table
Big Table, Google tarafından, oldukça ölçeklenebilir yapılandırılmış verilerin yönetimini amaçlayan dağıtılmış bir depolama sistemi olarak geliştirildi. Veriler, satırlar ve sütunlar içeren tablolarda düzenlenir. Geleneksel bir ilişkisel veritabanı modelinin aksine Big Table, seyrek, dağıtılmış, kalıcı çok boyutlu sıralanmış haritadır. Emtia sunucuları arasında büyük miktarda verinin depolanması amaçlanmıştır.
Hadoop
Hadoop, MapReduce ve Big Table'dan türetilen Apache tarafından yönetilen bir yazılım çerçevesidir. Hadoop, MapReduce'a dayalı uygulamaları büyük emtia donanımı kümeleri üzerinde yürütmeye izin verir. Proje, Yahoo!'yu destekleyen bilgi işlem mimarisinin temelini oluşturuyor! 'ın işi. Hadoop, hesaplamaları hızlandırmak ve gecikmeyi gizlemek için bilgi işlem düğümlerinde veri işlemeyi paralel hale getirmek üzere tasarlanmıştır.
Hadoop'un iki önemli bileşeni var: petabayt veriyi destekleyebilen ölçeklenebilir, dağıtılmış dosya sistemi ve toplu olarak sonuçları hesaplayan büyük ölçeklenebilir bir MapReduce motoru.