Video: Adamlar - Koca Yaşlı Şişko Dünya 2024
Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman
Şirketler, büyük verilerin rekabetçi kalması için başa çıkmak için pratik bir yol bulmalı - büyüyen miktarları yakalamak ve analiz etmek için yeni yollar öğrenmelidirler Müşteriler, ürünler ve hizmetler hakkında bilgi. Yapılandırılmış ve yapılandırılmamış yollarla veriler giderek daha karmaşık hale geliyor. Yeni veri kaynakları, sensörler gibi makinelerden gelmektedir; sosyal işletme siteleri; ve tıklama akışlı veriler gibi web sitesi etkileşimi. Değişen bu iş gereksinimlerini karşılamak doğru bilginin doğru zamanda bulunmasını gerektirir.
Büyük veriler, kuruluşların büyük miktarda farklı veriyi doğru zamanda ve doğru zamanda depolamalarını, yönetmelerini ve elle yönetmelerini sağlar. Doğru bilgilere ulaşmak için, büyük veriler tipik olarak üç özellikle ayrılır:Hacim:
-
Ne kadar veri Hız:
-
Verilerin ne kadar hızlı işlendiği Çeşitlilik:
-
Çeşitli veri türleri
Daha da önemlisi dördüncü V, doğruluğu. İş değeri tahmininde bu veriler ne kadar doğru? Büyük bir veri analizinin sonuçları gerçekten mantıklı mı? Verilerin doğruluğu ve bağlamı temel alınarak doğrulanabilmesi gerekir. Yenilikçi bir işletme, o müşterinin değerini hızlı bir şekilde değerlendirmek için büyük miktarda veriyi gerçek zamanlı olarak analiz edebilmek ve o müşteriye ek teklif sunma potansiyelini isteyebilir. İş sonuçlarını etkilemek için gerçek zamanlı olarak analiz edilebilen doğru miktarı ve verileri belirlemek gerekir.
Yapılandırılmamış Verileri Anlama
Yapılandırılmamış veriler yapısal verilerden daha farklıdır, çünkü yapısı önceden tahmin edilemez. Yapılandırılmamış verilere örnek olarak, belgeler, e-postalar, bloglar, dijital görüntüler, videolar ve uydu görüntüleri verilebilir. Ayrıca, makineler veya sensörler tarafından üretilen bazı veriler de bulunmaktadır. Aslında, yapılandırılmamış veriler şirketinizin alanındaki ve şirketinizin dışında bulunan verilerin çoğunluğunu Twitter ve Facebook gibi çevrimiçi özel ve kamu kaynaklarında toplar.
Geçmişte, çoğu şirket bu geniş miktarda veriyi yakalayamadı ya da depolayamadı. Bu sadece çok pahalı ya da çok ezici oldu. Şirketler verileri yakalamış olsalar bile, verileri kolaylıkla analiz etme ve sonuçları kararlar almak için kullanma araçlarına sahip değildirler. Çok az sayıda araç, bu muazzam miktarda veriyi anlamlandırabilir. Var olan araçlar kullanması karmaşıktı ve makul bir zaman aralığında sonuçlar üretmedi.
Sonuçta, bu verileri analiz etmek için büyük çaba harcamak isteyenler verilerin anlık görüntüleriyle çalışmaya zorlandı. Bu, belirli bir anlık görüntüde olmadığı için önemli olayların eksik olmasının istenmeyen etkisine sahiptir.
Yapılandırılmamış verilerden işletme değeri elde etmenin bir yolu olarak gittikçe değerlenmeye başlayan bir yaklaşım, metin analizleri, yapılandırılmamış metinleri analiz etme, ilgili bilgileri çıkarma ve bunu yapılandırılmış bilgiye dönüştürme sürecidir çeşitli şekillerde kaldıraçlı kılın. Analiz ve çıkarma süreçleri, sayısal dilbilim, istatistik ve diğer bilgisayar bilimleri disiplinlerinden kaynaklanan tekniklerden yararlanmaktadır. Büyük Veri Ortamında Geleneksel Operasyonel Verilerin Rolü
Hangi verilerin depolandığını ve nereye depolandığını bilmek, büyük veri uygulamanızın kritik yapı taşlarıdır. Uygulamanın özü için RDBMS'leri kullanmanız pek olası değildir, ancak büyük verilerle işletmenin en üst düzeyde değer yaratmak için RDBMS'lerde depolanan verilere güvenmeniz gerekebilir.
Büyük ve küçük ölçekli şirketlerin büyük çoğunluğu muhtemelen önemli operasyonel bilgilerinin birçoğunu tablolarla temsil edilen bir veya daha fazla ilişkiden oluşan ilişkisel veri tabanı yönetim sistemlerine (RDBMS) depolamaktadır. Bu tablolar, verilerin saklanma biçimine göre tanımlanır. Veriler, tablolar olarak adlandırılan - satırlar ve sütunlar halinde düzenlenmiş veritabanı nesnelerinde saklanır. RDBMS'ler, verilerin depolanıp alınma biçiminde tutarlı bir yaklaşım izler.
Yapılandırılmamış verilerin gerçek zamanlı analizinden en fazla ticari değeri elde etmek için, bu verileri müşteriler, ürünler, işlemler ve işlemler hakkındaki geçmiş verileriniz ile bağlantılı olarak anlamanız gerekir. Başka bir deyişle, yapılandırılmamış verilerinizi geleneksel operasyonel verilerinizle bütünleştirmeniz gerekecektir.
Büyük Veri Altyapısının Temelleri
Büyük veriler yüksek hız, büyük hacimler ve geniş veri çeşitliliği ile ilgili, bu nedenle fiziki altyapı kelimenin tam anlamıyla "uygulanmasını" sağlayacaktır. Çoğu büyük veri uygulamasının yüksek olması gerekir; bu nedenle, ağlar, sunucular ve fiziksel depolama esnek ve gereksiz olmalıdır.
Esneklik ve artıklık birbiriyle ilişkilidir. Bir altyapı veya bir sistem, yeterli yedekli kaynaklar harekete geçmeye hazır olduğunda başarısızlığa veya değişime karşı dirençlidir. Esneklik, altyapınızdaki tek başarısızlık noktalarını ortadan kaldırmaya yardımcı olur. Örneğin, işinizle İnternet arasında yalnızca bir ağ bağlantısı varsa, ağ yedekliliğiniz yoktur ve altyapı, bir ağ arızasına karşı dayanıklı değildir.
İş sürekliliği gereksinimine sahip büyük veri merkezlerinde, yedekliğin büyük bir kısmı yerinde ve büyük bir veri ortamı oluşturmak için kaldırabilmektedir. Yeni uygulamalarda tasarımcılar, dağıtımın maliyet ve performansa dayalı olarak işletmenin ihtiyaçlarına göre planlanması sorumluluğunu taşır.
Büyük Verileri Hadoop ile Yönetme: HDFS ve MapReduce
Açık kaynaklı bir yazılım çerçevesi olan Hadoop, emtia donanım kümeleri üzerinde büyük verileri analiz etmek için HDFS'yi (Hadoop Dağıtılmış Dosya Sistemi) ve MapReduce'u kullanır; dağıtılmış bilgi işlem ortamı.
Hadoop Dağıtılmış Dosya Sistemi (HDFS), şirketlerin çok miktarda veriyi basit ve pragmatik bir şekilde daha kolay yönetmelerine olanak tanımak için geliştirildi. Hadoop büyük problemlerin daha küçük unsurlara ayrılmasını sağlar, böylece analiz hızlı ve ekonomik bir şekilde yapılabilir. HDFS, büyük bir veri ortamında dosyaları yönetmek için çok yönlü, esnek, kümelenmiş bir yaklaşımdır.
Dosyalar için HDFS son hedef değil. Daha ziyade, veri hacimleri ve hız yüksek olduğunda ihtiyaç duyulan benzersiz bir yetenek kümesi sunan bir "hizmet" verisi.
MapReduce, geliştiricilerin dağıtılmış bir işlemci grubuna paralel olarak büyük miktarda yapılandırılmamış verileri işleyebilecek programlar yazmasına olanak tanıyan bir yazılım çerçevesidir. MapReduce, toplu modda çok miktarda veriye karşı bir dizi işlevi etkili bir şekilde yürütmenin bir yolu olarak Google tarafından tasarlanmıştır.
"Harita" bileşeni, programlama sorununu veya görevlerini çok sayıda sistemde dağıtır ve görevlerin yükü dengeleyecek ve arızalardan kurtarmayı yönetecek şekilde yerleştirilmesini yönetir. Dağıtılmış hesaplama tamamlandıktan sonra "azalt" adı verilen başka bir işlev, sonuç sağlamak için tüm öğeleri bir araya toplar. MapReduce kullanımına bir örnek, 50 farklı dilin her birinde kaç sayfalık bir kitabın yazıldığını belirlemek olacaktır.
Büyük Veri Stratejiniz için Zemin Taslağı
Şirketler büyük verilerle yüzüyor. Sorun, geleceği öngörmek, önemli iş süreçlerini yürütmek ya da yeni anlayışlar kazanmak için bu verilerin pragmatik olarak nasıl kullanılacağını sık sık bilmiyor olmalarıdır. Büyük veri stratejinizin ve planınızın amacı, daha öngörülebilir ticari sonuçlar için veriden yararlanmanın pragmatik bir yolunu bulmak olmalıdır.
Bir keşif işlemine başlayarak büyük veri stratejinize başlayın. Zaten sahip olduğunuz, nerede olduğu, kimin sahibi olduğu ve denetlediği ve şu anda nasıl kullanıldığına ilişkin bilgi sahibi olmanız gerekir. Örneğin, şirketinizin dayandığı üçüncü parti veri kaynakları nelerdir? Bu işlem size çok sayıda bilgi sağlayabilir:
Sahip olduğunuz kaç veri kaynağını ve ne kadar çakıştığını belirleyebilirsiniz.
-
Bu veri kaynakları hakkındaki bilgi boşluklarını tespit edebilirsiniz.
-
İşletmenizin bir alanında çok sayıda veri kopyanız olduğunu ve başka bir alanda neredeyse hiç veri olmadığını keşfedebilirsiniz.
-
Olması gereken kadar doğru olmayan üçüncü parti verilere bağımlı olduğunuzu tespit edebilirsiniz.
-
Bu keşif sürecini yapmanız için gereken zamanı harcayın, çünkü büyük veri stratejinizi planlamanıza ve uygulamanıza temel oluşturacaktır.