İçindekiler:
Video: SPSS Faktör Analizi Pratik Bilgiler, Açımlayıcı Faktör Analizi (1. Bölüm) 2024
Başa çıkılacak en sık ve en büyük veri problemlerinden biri eksik verilerdir. Kayıtlar düştüğünden veya bir depolama aygıtı dolduğundan dosyalar eksik olabilir. Veya bazı veri alanları, bazı kayıtlar için veri içermeyebilir. Bu sorunlardan birincisi, dosyalar için kayıt sayısını doğrulayarak teşhis edilebilir. İkinci sorunla baş etmek daha zordur.
Basit ifadelerle, eksik değerleri içeren bir alanı bulduğunuzda iki seçeneğiniz vardır:
-
Yoksay.
-
Sahada bir şeyler yapıştırın.
Sorunu yoksayma
Bazı durumlarda, çok sayıda eksik değer içeren tek bir alan bulabilirsiniz. Eğer öyleyse, yapılacak en kolay şey sadece alanı görmezden gelmektir. Analizinize dahil etmeyin.
Sorunu görmezden gelmenin bir başka yolu kayıtları yoksaymaktır. Eksik verileri içeren kaydı silmek yeterlidir. Yalnızca birkaç sahtekar kayıt varsa bu mantıklı olabilir. Ancak, önemli sayıda eksik değer içeren çoklu veri alanları varsa, bu yaklaşım rekor sayılarınızı kabul edilemez seviyeye düşürebilir.
Sadece kayıtları silmeden önce dikkat etmeniz gereken bir diğer husus, herhangi bir kalıp işaretidir. Örneğin, ülke çapında kredi kartı bakiyeleri ile ilgili bir veri kümesini analiz ettiğinizi varsayalım. 0 doları gösteren bir sürü kayıt bulabilirsiniz. 00 bakiyeleri (belki de kayıtların yaklaşık yarısı). Bu, kendi başına eksik veri göstergesi değildir. Ancak, örneğin California'daki tüm kayıtlar 0 TL gösteriyorsa. 00 dengeleri, potansiyel bir eksik değer problemi olduğunu gösterir. Ve ülkedeki en büyük devletten tüm kayıtları silerek yararlı bir şekilde çözülecek olan bu değil. Bu durumda, muhtemelen bir sistem sorunu ve yeni bir dosya oluşturulması gerektiğini gösterir.
Genel olarak kayıtların silinmesi, eksik değer problemlerine karşı kolay, ancak ideal olmayan bir çözümdür. Sorun nispeten küçükse ve atlamalar için belirgin bir şekil yoksa, rahatsız edici kayıtları atıp okumaya devam edebilir. Ancak daha sıklıkla daha cazip bir yaklaşım gereklidir.
Eksik verilerin doldurulması
Eksik verilerin doldurulması, o alandaki içeriği hakkında eğitilmiş bir tahmin yapmak demektir. Bunu yapmak için iyi ve kötü yollar var. Basit bir (fakat kötü) yaklaşım, eksik olan değerlerin eksik olmayan ortalamayla değiştirilmesidir. Sayısal olmayan alanlarda, eksik kayıtları diğer kayıtlarda (modda) en yaygın değerle doldurmaya cazip olabilirsiniz.
Bu yaklaşımlar ne yazık ki hala bazı iş uygulamalarında sıklıkla kullanılmaktadır.Fakat istatistikçiler tarafından kötü fikirler olarak kabul edilirler. Birincisi, istatistiksel analiz yapmanın bütün noktası, bir sonucun diğerinden farklılaşması için veri bulmaktır. Tüm eksik kayıtları aynı değere bırakarak hiçbir şeyi ayırt etmediniz.
Daha yüksek yaklaşım, anlamlı olmayan bir şekilde bir değeri eksik olan her kayıtta hangi değeri doldurması gerektiğini tahmin etmenin bir yolunu bulmaya çalışmaktır. Bu, eksiksiz kayıtlara bakmayı ve eksik değerin ne olabileceği konusunda ipucu bulmaya çalışmayı içerir.
Ürünlerinizden birinin muhtemel alıcılarını tahmin etmek için demografik bir dosyayı analiz ettiğinizi varsayalım. Bu dosyada, diğer alanların yanı sıra medeni durum, çocuk sayısı ve otomobil sayısı da var. Nedense, kayıtların üçte birinde oto alanı sayısı eksik.
Diğer iki alanı analiz ederek - medeni durum ve çocuk sayısı - bazı kalıplar keşfedebilirsiniz. Tek kişi bir arabaya sahip olma eğilimindedir. Hiçbir çocuk sahibi olmayan evli insanlar iki arabaya sahip olma eğilimindedir. Birden fazla çocuğu olan evli insanların üç arabaya sahip olma ihtimali daha yüksek olabilir. Bu şekilde, eksik değerleri kayıtlar arasında gerçekten farklılık gösterecek şekilde tahmin edebilirsiniz. Bu yaklaşım hakkında daha fazla bilgi.
İstatistikte ve veri işlemede şüpheli verilere atıf yapan genel bir terim vardır. gürültülü terimi, güvenilmez, bozuk veya bozulmamış olan verileri tanımlamak için kullanılır. Eksik veriler bunun bir örneğidir. Genel olarak gürültülü verileri temizleme tekniklerinin ayrıntılı bir açıklaması bu kitabın kapsamı dışındadır. Aslında bu, istatistiksel teoride aktif bir araştırma alanıdır. Tüm gürültünün eksik değerler olarak bulunmasının kolay olmadığı gerçeği ile baş etmek zahmetlidir.