Video: 211th Knowledge Seekers Workshop Feb 15 2018 2024
Büyük veri ortamının çekirdeğinde ve büyük veri yığınının 2. katında, işinizle alakalı veri öğelerinin koleksiyonları. Bu motorların hızlı, ölçeklenebilir olması ve güçlü sağlam olması gerekir. Bunların hepsi eşit değildir ve bazı büyük veri ortamları bir motorun diğerinden daha iyi ya da daha çok veritabanı motorlarının bir karışımıyla daha iyi olacağı anlamına gelir.
Örneğin, büyük veri uygulamalarınız için ilişkisel veritabanı yönetim sistemleri (RDBMS'ler) kullanmak mümkün olsa da, performans, ölçek veya hatta maliyet nedeniyle bunu yapmak pratik değildir. Birkaç farklı veritabanı teknolojisi mevcuttur ve akıllıca seçmek için dikkatli olmalısınız.
Veritabanı dilleriyle ilgili tek doğru seçim yok. Bugün kullanılan en yaygın veritabanı sorgulama dili SQL'dir, ancak diğer diller büyük veri sorunlarınızı çözmenin daha etkili veya etkili bir yolunu sağlayabilir. Motorları ve dilleri bir "uygulayıcının araç kutusu" nda araç olarak düşünmek faydalıdır. "Göreviniz doğru aracı seçmektir.
Örneğin, bir ilişkisel model kullanırsanız, sorgulamak için muhtemelen SQL kullanırsınız. Bununla birlikte, Python veya Java gibi alternatif dilleri de kullanabilirsiniz. Veritabanı tarafından ne tür verilerin manipüle edilebileceğini ve gerçek işlem davranışını destekleyip desteklemediğini anlamak çok önemlidir. Veritabanı tasarımcıları bu davranışı, ACID kısaltmasıyla açıklarlar.
-
Atomicity: Atomik olduğunda bir işlem "hepsi ya da hiçbir şey" dir. İşlemin herhangi bir kısmı veya altında yatan sistem başarısız olursa, tüm işlem başarısız olur.
-
Tutarlılık: Veritabanında yalnızca geçerli verilerle işlem yapılır. Veriler bozuksa veya uygun değilse işlem tamamlanmaz ve veriler veritabanına yazılamaz.
-
İzolasyon: Birden çok eşzamanlı işlem birbirine karışmaz. Tüm geçerli işlemler tamamlanıncaya ve işleme tabi tutulmaları için gönderilene kadar yürütülecektir.
-
Dayanıklılık: İşlemden elde edilen veriler veritabanına yazıldıktan sonra "sonsuza dek orada kalır. Örnekler
İlişkisel SQL, Python, C Hayır Yazılmış Veri Tabanı PostgreSQL, Oracle, DB / 2 Sütunlu Ruby Hadoop Önceden tanımlanmış ve yazılmış Evet, etkinse HBase Grafik Yürüme, Arama, Cypher Hayır İşaretlenmemiş ACID Neo4J Belge Komutlar JavaScript Yazılmış Hayır MongoDB, CouchDB Anahtar / değer Lucene, Komutlar JavaScript BLOB, semityped Hayır Riak, Redis Gereksinimleri anladıktan ve hangi verileri topladığınızı, nereye koyacağınızı ve ne Analiz, raporlama ya da belirli uygulamalar için kullanılabilmesi için onu düzenlemeniz gerekir.