İçindekiler:
Video: 5 Tips For Getting A Data Science Job 2024
Geleneksel iş zekası ürünleri büyük verileri işlemek üzere tasarlanmamıştı, bu nedenle bazı değişiklikler gerektirebilirler. Oldukça yapılandırılmış, iyi anlaşılmış verilerle çalışmak üzere tasarlanmışlardı, çoğu zaman ilişkisel veri deposunda saklanır ve masaüstünüzde veya dizüstü bilgisayarınızda gösterilirler. Bu geleneksel iş zekası analizi genelde mevcut verilerin tümünden ziyade verilerin anlık görüntülerine uygulanır. Büyük veri analizi ile neyin farklı olduğu?
Büyük veri verileri
Büyük veriler yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verilerden oluşur. Çoğu kez çok şey yaşıyorsunuz ve oldukça karmaşık olabilir. Analiz üzerine düşündüğünüzde, verilerinizin potansiyel özelliklerinden haberdar olmalısınız:
-
Güvenilmeyen kaynaklardan gelebilir. Büyük veri analizi genellikle çeşitli kaynaklardan gelen verileri toplar. Bunlar hem iç hem de dış veri kaynaklarını içerebilir. Bu dış bilgi kaynakları ne kadar güvenilirdir? Örneğin, bir tweet gibi sosyal medya verileri ne kadar güvenilir? Bilgiler, doğrulanmamış bir kaynaktan gelmiş olabilir. Analizde bu verilerin bütünlüğü göz önüne alınmalıdır.
-
Kirli olabilir. Kirli veriler, hatalı, eksik veya hatalı verilere işaret eder. Bu kelimelerin yazım hatalarını içerebilir; kırılmış, düzgün şekilde kalibre edilmemiş veya bir şekilde bozulmuş bir sensör; veya hatta kopyalanmış veriler. Veri bilimcileri, verilerin nerelerde temizleneceği konusunda tartışıyor - kaynağa yakın ya da gerçek zamanlı.
Elbette, bir düşünce ekibi kirli verilerin temizlenmemesi gerektiğini söylüyor çünkü ilginç çıkıntılar içerebilir. Temizleme stratejisi büyük olasılıkla verinin kaynağına, türüne ve analizinizin amacına bağlı olacaktır. Örneğin, bir spam filtresi geliştiriyorsanız, amaç, verilerdeki kötü öğeleri saptamaktır, bu nedenle temizlemek istemezsiniz.
-
Sinyal-gürültü oranı düşük olabilir. Başka bir deyişle, sinyal (kullanılabilen bilgi) yalnızca verinin küçük bir yüzdesi olabilir; geri kalan gürültü. Gürültülü veriden minik bir sinyal çıkarabilmek, büyük veri analizinin yararlarından biridir, ancak sinyalin gerçekten küçük olabileceğinin farkında olmalısınız.
-
Gerçek zamanlı olabilir. Çoğu durumda, gerçek zamanlı veri akışlarını analiz etmeye çalışacaksınız.
Büyük veri yönetimi, analiz denkleminin önemli bir parçası olacak. Ticari analitiklerin altında, özellikle bir depoda depolanan mevcut güvenilir verilerle birleştirildiği için, yeni veri kaynaklarından gelen doğruluğun sağlanması için yönetim çözümlerine yönelik geliştirmeler yapılması gerekecek.Veri güvenliği ve gizlilik çözümlerinin, yeni teknolojilerde depolanan büyük verilerin yönetimini / yönetilmesini de desteklemek için geliştirilmesi gerekiyor.
Analitik büyük veri algoritmaları
Büyük veri analitiği düşünüyorsanız, masaüstünün ötesine taştığınızda, kullandığınız algoritmaların sık sık yeniden biçimlendirilmesi, değiştirilmesi gerektiğini bilmelisiniz. harici işleyişini etkilemeden dahili kod. Büyük bir veri altyapısının güzelliği, birkaç saat ya da günler süren bir modeli çalıştırabilmenizdir.
Bu, modeli yüzlerce kez tekrarlamanıza izin verir. Bununla birlikte, dağıtılmış bir ortamda milyarlarca veri satırında gerileme yapıyorsanız, veri hacmi ve kümedeki konumu ile ilgili kaynak gereksinimlerini göz önüne almanız gerekir. Algoritmalarınızın veri farkında olması gerekir.
Ayrıca, satıcılar, yerinde olan verileri analiz etmek için büyük veri kaynaklarına yakın olacak şekilde tasarlanmış yeni analitikler sunmaya başlıyor. Analizleri veri kaynağına daha yakın bir şekilde çalıştıran bu yaklaşım, yalnızca yüksek değerli verileri koruyarak depolanan verilerin miktarını en aza indirir. Ayrıca, verileri daha önce analiz etmenizi sağlar; bu da, gerçek zamanlı karar vermede kritik önem taşır.
Elbette, analitik gelişmeye devam edecektir. Örneğin, sürekli değişen gerçek zamanlı verileri görüntülemek için gerçek zamanlı görüntüleme yeteneklerine ihtiyacınız olabilir. Bir grafik çizelgesinde neredeyse 1 milyar puanı nasıl planlıyorsunuz? Veya tahmin algoritmalarıyla nasıl çalışıyorsunuz; böylece, giderek genişleyen, karmaşık bir veri kümesini kullanmak için yeterince hızlı ve derinlemesine bir analiz yapıyorlar? Bu, aktif bir araştırma alanı.
Büyük veri altyapısı desteği
Bir platform arıyorsanız aşağıdakilere ulaşması gerektiğini söylemelisiniz:
-
Teknolojileri entegre etmek: Altyapı, yeni büyük veri teknolojilerini geleneksel teknolojileri kullanarak her türlü büyük veriyi işleyebilecek ve geleneksel analitik yöntemlerle tüketilebilir hale getirebilecek.
-
Farklı miktarda farklı veri saklayın: Yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olsun olmasın, dinlenmekte olan büyük miktarda veriyi işleyebilen / depolayan / yöneten, kurumsal olarak sertleştirilmiş bir Hadoop sistemi gerekebilir.
-
İşlem verilerinin hareket halindeyken: Gerçek zamanlı karar vermeyi desteklemek için algılayıcılar, akıllı cihazlar, video, ses ve günlükler tarafından sürekli üretilen hareket halindeki verilerin işlenmesi için akış hesaplama yeteneği gerekebilir.
-
Depo verileri: Artan miktarda güvenilir veri depolamak ve yönetmek için operasyonel veya derin analitik iş yükleri için optimize edilmiş bir çözüme ihtiyacınız olabilir.
Ve tabii ki, halihazırda sahip olduğunuz veriyi büyük veri analizinin sonuçları ile bütünleştirme kabiliyetine ihtiyacınız var.