İçindekiler:
Video: WhatsApp verileriniz tehlikede mi? WhatsApp ne kadar güvenli? 2024
Çoğu veri kümesi, esasen, meta verilerle () birlikte gelir; dosya. Meta veriler genelde formatların açıklamalarını, her bir veri alanındaki hangi değerlerin gösterildiğini ve bu değerlerin ne anlama geldiğini içerir.
Yeni bir veri kümesiyle karşı karşıya kalırsanız, meta veriyi hiçbir zaman karşılığında almazsınız. Büyük verilerin doğası, onu üreten sistemlerin mümkün olduğunca tutulmasını ve çalışmasını gerektirir. Bu nedenle, değişiklikler uygulandığında bu sistemlerin meta verilerini güncellemek her zaman bir öncelik olmaz. Verilerin gerçekten meta veri talepleri kadar olduğunu onaylamanız gerekir.
Kaynaklarınızı kontrol etme
Ortaya çıkabilecek en açık olduğu gibi verilerinizin nereden geldiğine inanmanız önemlidir. Bu, veri satın alırken özellikle önemlidir. Orada binlerce satıcı, her türlü akla yatkın veri türünü sunuyor. Ve hepsi eşit güvenilirlik değildir.
Verileri satın almadan önce, satıcının tam olarak nerede ve nasıl toplayacağını anlamaya çalışın. Gizem ve belirsizlik kırmızı bayraklardır.
Satıcıları sözlerine kaptırma. Yalnızca, satıcının sağladığı web sitesinde veya müşteri referanslarında müşteri memnuniyeti ilanlarına güvenmeyin. Mümkünse, verileri kullanan birini veya verileri kullanmayı deneyin.
Verileriniz iç sistemlerden geliyorsa, kaynakları değerlendirmek önemlidir. Farklı sistemlerin farklı amaçları vardır ve bu nedenle farklı verilere odaklanırlar. Ayrıca farklı zamanlarda veri toplayabilirler.
Örneğin, konuklar check-in yaparken bazı otel zincirlerinin ön masada kullandıkları rezervasyonla ayrı bir sistemde rezervasyon yaptırması nadir değildir. Misafirin alabileceği olasılıklar rezervasyon ve check-in arasında indirimli bir teklif. Bu, rezervasyon sistemindeki oda fiyatının ön büro sistemindeki fiyatla uyuşmaması anlamına gelir. Dahası, rezervasyon iptal edilebilir ve asla ön büroya teslim edilemez!
Şimdi, otel gelirlerinin şehre göre analizini yaptığınızı varsayalım. Oda fiyatına ait verilerinizin rezervasyon sisteminden ziyade ön büro sisteminden kaynaklandığını bildiğinizden önemliyiz. Ancak şirketinizin Super Bowl reklamı tarafından kaç rezervasyonun üretildiğini analiz etmeye çalışıyorsanız ne olacak? Bu durumda, rezervasyon sistemindeki verileri görmek istiyorsunuz.
Otel örneği, özünde temiz verilerin bile sorunlu olabileceğini göstermektedir. Veriler doğru ve tam olarak ne ifade ettiği anlamına gelse bile, zamanlama bir sorun olabilir.Veriler zamanla değişir.
Doğrulama biçimleri
Bu bölümün başında belirtildiği gibi, meta verilerinizin size sağlayacağı şeylerden biri, verilerin nasıl biçimlendirildiğine ilişkin bazı göstergelerdir. biçimlendirilmiş olarak, , her belirli veri öğesinin nasıl göründüğünü belirtiriz. "Ürün Kodu" bir karakter mi yoksa rakam mı? "Başlangıç Tarihi" bir tarih mi, yoksa gerçekten bir tarih saati damgası mı?
Hangi istatistiklerin ve istatistiksel prosedürlerin hangi veri öğelerine uygulanabileceğini belirlemek için veri türleri istatistiksel analizde önemlidir. "First Name" gibi bir karakter alanının ortalama değerini almaya çalışırsanız, her seferinde bir hata mesajı alırsınız.
Tipik olarak, bu tür meta veriler oldukça doğrudur. Genellikle, verileri tutan ve otomatik olarak oluşturulabilen sistem tarafından saklanır. Formatları doğrulamak genellikle oldukça basittir. Bu doğrulama esasen bir sonraki bölümde tartışılan veri aralıklarının doğrulamasının bir yan ürünüdür. Fakat burada biraz daha zor olabilecek örnekler var.
Bu tür bir senaryonun, hatırlamak istediğimizden daha çok kez gördük. Bazen bir sistem tasarlandığında, geliştirme ekibi gelecekteki iyileştirmeleri karşılamak için veri yapılarına biraz esneklik getirmeye çalışır. Bazen, her kaydın sonuna bir sürü boş (geniş) alfa-sayısal veri sütunu eklerler. Bu yardımcı sütunlar başlangıçta hiçbir şey için kullanılmaz.
Analistler, her zaman, daha az sıklıkla, tüm veriler yerine bazıları veri yerine daha fazla veri istemekle yanılıyor olacak. Bu gerçek, veriyi çabucak bulma gereksinimi ile birlikte bazen veri dökümüyle sonuçlanır. Bu döküm genellikle yardımcı sütunları içerir. Bu gibi durumlarda, meta veriler size "Alan 1-11" gibi "200 alfasayısal karakter" şeklinde biçimlendirildiğini bildirir. "
Bu bilgiler pratik olarak faydasızdır. Böyle bir veri alanını anlamanız için, ellerinizi kirletmeniz gerekiyor. Birkaç düzine kayıtla sayfa dışında yapabileceğiniz pek bir şey yok ve sahada neler olduğuyla ilgili bilinçli bir tahmin yapmaya çalışın. Çoğu durumda, bu alanlar boş olma eğilimindedir. Ama her zaman değil. İyi haber; eğer alan aslında kullanılıyorsa, ne için kullanıldığını bilen bir yerde bir programcı bulabilmelisiniz.
Verilerinizi tiplendirme
İstatistiksel analiz gerçekleştirmede en kritik adımlardan biri, verilerinizin gösterdiği şey olduğundan emin olmaktır. İstatistiksel prosedürler, veri formatları hakkında geçerli bilgi vermezseniz, her zaman çökecektir. Fakat bu prosedürler, verilerin geçerliliği ile ilgili problemlere karşı büyük ölçüde kördür.
Veri alanının nasıl biçimlendirildiğini anlamak yeterli değil. Bir veri kümesini istatistiksel bir işleme dönüştürmeden önce, kullandığınız alanların her birinde ne veri olduğunu anlamanız gerekir.
Çoğu veri dört kategoriden birine girer: nominal, sıra, aralık ve oran.Veri türü, belirli veri alanlarına hangi istatistik ve istatistiksel prosedürlerin uygulanabileceğini belirler. Örneğin, "Soyadı" gibi bir alana ortalama sahip olamazsınız.
Veri formatlarını karıştıran veri türleri kolay (ve çok yaygın). Bir veri alanının bir karakter, tamsayı veya sürekli olup olmadığını bilmek veri türünü söylemez.
Karakter alanları bazen bir sistemin gelecek sürümlerinde yakalanabilecek veriler için yer tutucu olarak kullanılır. Böyle bir alanın para veya diğer sayısal verileri yakalamak için kullanılmasını engelleyecek hiçbir şey yoktur.
En yaygın veri türü hatası sayısal bir alanın, özellikle de tamsayı değerli bir alanın sayısal sıradüzenli verilerini içerdiğini varsayıyor. Şirketlerin ürün, bölge, mağaza ve diğer çeşitli varlıkları temsil etmek için sayısal kodları ( nominal verileri) kullanmaları oldukça yaygındır.
Havayolu uçuş kodları bir örnektir. Sayım bölgesi başka. Hatta kredi kartı ve Sosyal Güvenlik numaraları bile tam sayı olarak saklanır. Fakat bütün bu varlıklar sadece tanımlayıcılardır. nominal değişkenleridir. Bir bankanın portföyündeki ortalama kredi kartı numarası anlamsız bir istatistiktir.