Video: Big Data Hadoop Training | Twitter Analysis with Apache Hive | Hadoop Tutorial | Edureka 2024
Günlük analizi, açılış Hadoop projesi için ortak bir kullanım örneğidir. Nitekim, Hadoop'un en erken kullanım alanları, clickstream günlüklerinin - insanların ziyaret ettiği web sayfaları ve hangi sırada ziyaret ettikleri hakkındaki verileri kaydeden günlükleri - büyük ölçekli analizi için kullanılmıştır.
BT altyapınız tarafından üretilen tüm veri kayıtlarına genellikle veri egzozu adı verilir. Bir günlük, çalışan bir motorun egzoz borusundan gelen duman gibi çalışan bir sunucunun yan ürünüdür. Veri egzozu kirlilik veya atık çağrışımına sahiptir ve birçok işletme kuşkusuz bu düşünceyi akılda tutarak bu tür verilere yaklaşmaktadır.
Günlük verileri genellikle hızlı bir şekilde büyür ve üretilen yüksek hacim nedeniyle analiz etmek sıkıntılı olabilir. Ve bu verilerin potansiyel değeri çoğunlukla net değildir. BT departmanlarındaki günaha, bu günlük verilerini mümkün olduğunca az zaman saklamaktır.
Hızlı bir şekilde başlamak için, bu kullanım durumundaki veriler büyük olasılıkla kolaydır ve Hadoop yolculuğunuzu diğer (yönetilen) verilerle başlatırsanız karşılaşacağınız aynı sorunları genelde kapsamaz.
Artık çoğu hanede elektrik kullanımlarını kaydeden akıllı sayaçlar var. Yeni arabalar, durumlarının ve kullanımlarının özelliklerini kaydeden binlerce sensöre sahiptir. İnternette gezinirken yaptığınız her tıklama ve fare hareketi, günlük girdilerinin kademeli olarak oluşturulmasına neden olur.
Her ne zaman bir şey satın aldığınızda - bir kredi kartı veya bankamatik kartı kullanmadan bile - sistemler sistemdeki faaliyeti veritabanlarında ve günlüklerde kaydederler.Günlük verilerinin daha yaygın kaynaklarından bazılarını görebilirsiniz: BT sunucuları, web tıklama akışları, algılayıcılar ve işlem sistemleri.
Özellikle belirli bir faaliyet türünü sıfırlayıp bulgularınızı bağlam sağlamak için başka bir veri kümesiyle ilişkilendirebildiğinizde, her endüstri (ve açıklanan tüm günlük türleri) değerli analiz için büyük potansiyele sahiptir.
Örnek olarak, bu tipik web tabanlı tarama ve satın alma deneyimini göz önünde bulundurun:
Siteyi dolaşarak satın alacak ürünleri arayın.
-
Gözünüze çarpan bir ürünün açıklamalarını okumak için tıklayın.
-
Sonunda, alışveriş sepetinize bir öğe ekleyip kasaya (satın alma işlemi) devam edin.
-
Ancak gönderim bedelini gördükten sonra, öğenin fiyatının düşük olduğuna karar verdiniz ve tarayıcı penceresini kapattınız. Yaptığınız her tıklamayı - ve daha sonra yapmayı bırakın - bu e-ticaret sitesinin arkasındaki şirkete değerli bilgiler sunma potansiyeline sahiptir.
Bu örnekte, bu işletmenin, müşterilerine daha iyi nasıl hizmet verebileceklerini anlama amacıyla tıklama akışı verilerini (bir ziyaretçinin "dokunduğu her fare tıklaması ve sayfa görüntüleme hakkındaki veriler") topladığını varsayalım. E-ticaret işletmeleri arasında sık görülen bir sorun, terk edilmiş alışveriş sepetlerinin arkasındaki kilit faktörleri tanımaktır. Clickstream verilerinde daha derinlemesine analizler gerçekleştirir ve sitedeki kullanıcı davranışını incelerseniz desenler ortaya çıkmaya mecburdur.
Şirketiniz görünüşte basit bir sorunun cevabını biliyor mu? "Bazı ürünler diğerlerinden daha mı vazgeçiliyor? "Veya sorunun cevabı," Sepet terkini yüzde 10 azaltarsanız ne kadar gelir elde edilebilirsiniz? "Aşağıdakiler, Hadoop davanıza yatırım yapmak için iş liderlerine gösterebileceğiniz türden bir rapora örnektir.
Gösterilen grafikleri oluşturmak için verileri üretebileceğiniz noktaya gelmek için, tek tek kullanıcıların web'de gezinme oturumlarını (
oturumlaşma olarak bilinen bir süreç) , alışveriş sepetlerinin içeriğini tanımlarsınız ve oturumun sonundaki işlem durumunu - tümü tıklama akışını inceleyerek hazırlayın. Aşağıda, tüm tıklamaları ve URL adreslerini IP adresine göre gruplayarak kullanıcıların web tarama oturumlarını nasıl bir araya getireceğinize bir örnek verilmiştir.
Hadoop bağlamında, anahtarlar ve değerlerle her zaman birlikte çalışıyorsunuz- MapReduce'un her fazında, anahtar ve değer kümelerindeki veriler giriliyor ve çıktılanıyor. Anahtar IP adresidir ve değer zaman damgası ve URL'den oluşur. Harita aşamasında, kullanıcı oturumları Hadoop kümenizde saklanan tıklama akışı veri kümesinin tüm dosya blokları için paralel olarak toplanır.
Harita aşaması şu unsurları döndürür:
Ziyaret edilen son sayfa
-
Alışveriş sepetindeki öğelerin listesi
-
Her kullanıcı oturumu için işlem durumu (IP adresi tuşuyla dizine eklenir) < Redüktör, bu kayıtları alır ve ayda terk edilen arabaların sayısını ve değerini toplamaya ve kullanıcı oturumunu sona erdirmeden önce görüntülediği en yaygın nihai sayfaların toplamlarını toplamaya yönelik toplama işlemlerini gerçekleştirir.