Video: SPSS programı ile hatalı veri tespiti ve SPSS'e veri girişi sonrası yapılması gerekli kontroller 2024
dahil edilip edilmeyeceğine) karar vermeniz gerekir. Tahmin edici verilerinizde kullanmadan önce verilerin gereksiz şeylerden temiz olduğundan emin olmanız gerekir analiz modeli.Bu, hatalı değerler içeren kayıtları bulma ve düzeltme ve eksik olan değerleri doldurmaya çalışmayı içerir.Yine de, yinelenen kayıtların eklenip eklenmeyeceğine (örneğin iki müşteri hesabı) karar vermeniz gerekir. Tahmini modelinizi oluşturmak için kullandığınız bilgilerin bütünlüğünü sağlayın. Verilerin eksiksizliği, doğruluğu ve zamanlamasına özel dikkat edin.
Betimleyici min ve max hesaplama, sıklık dağılımını denetleme ve beklenen aralıkları doğrulama gibi çeşitli alanlar için istatistikler (niceliksel özellikler) Düzenli kontrolü çalıştırmak, daha fazla inve için beklenen aralığın dışındaki verileri işaretlemenize yardımcı olabilir stigation. 1990'lı yıllarda doğum tarihleri olan emeklileri gösteren her kayıt işaretlenebilir.
Ayrıca bilgilerin çapraz kontrolü önemlidir, böylece verilerin doğru olduğundan emin olursunuz. Veri özelliklerini daha derinlemesine analiz etmek ve veri kayıtları arasındaki ilişkiyi tanımlamak için, veri profillemesi 'u (veri mevcudiyetini analiz etme ve veri kalitesi ile ilgili istatistikleri toplamak) ve görselleştirme araçlarını kullanabilirsiniz.
Eksik veriler, belirli bilgilerin kaydedilmemiş olması gerçeğine bağlı olabilir. Böyle bir durumda mümkün olduğu kadar doldurmaya çalışabilirsiniz; bazı alanların boşluklarını doldurmak için uygun varsayılanlar kolayca eklenebilir.
Örneğin, cinsiyet alanının bir değer eksik olduğu bir hastane anında sağlık ocağında olan hastalar için başvuru yalnızca kadın olarak doldurabilir. Bu hususta, gebelik durumu için eksik kaydı olan bir hastaneye yatırılan herhangi bir erkek için, bu kayıt benzer bir şekilde doldurulabilir. Bir adres için eksik bir posta kodu, cadde adından ve o adresde verilen şehirden çıkarılabilir.
Bilginin bilinmediği veya bulunmadığı durumlarda, analizin doğruluğunu etkilemeksizin verilerin eksik olduğunu belirtmek için boşluk yerine diğer değerlerini kullanmanız gerekecektir. Verilerdeki boşluk, çoğu iyi veya kullanışlı olmayan birden çok şey anlamına gelebilir. Yapabildiğiniz zaman, boşluğun niteliğini anlamlı yer dolgusu ile belirtmelisiniz. Tamamen küçük ve pozitif sayılardan (0 ile 100 arasında değerler) oluşan sayısal veriler için, örneğin kullanıcı, -999 sayısını tanımlayabilir.99 eksik veri yeri doldurucusu olarak.
Mısır alanındaki bir gülün bir ot olarak tanımlanması mümkün olduğu gibi, aykırı değerler farklı analizler için farklı şeyler ifade edebilir. Bazı modellerin yalnızca bu belirsizlikleri takip etmek ve işaretlemek için oluşturulmuş olması yaygın bir durumdur. Sahtekarlık saptama modelleri ve cezai faaliyetlerin izlenmesi, bu türden istenmeyen olayların ortaya çıktığı olağandışı fikirlerle ilgilidir.
Böylece, veri kümesindeki sapmaları bu gibi durumlarda korumak önerilir. Bununla birlikte, dışsal değerler verilerde anormallikler olarak değerlendirildiğinde ve yalnızca analizleri çarpıtacak ve hatalı sonuçlar doğuracak - verileri verilerinizden kaldıracaktır. Olmasını istemediğiniz şey, modelinizin dış görünüşleri tahmin etmeye çalışması ve sonuç olarak başka bir şey tahmin etmemesidir.
Verilerin çoğaltılması da faydalı olabilir veya rahatsızlık verebilir; bazıları gerekli olabilir, değeri gösterebilir ve verilerin doğru bir durumunu yansıtabilir. Örneğin, birden çok hesaba sahip bir müşterinin kaydı, (teknik olarak, her neyse) aynı kayıtların çoğaltılmış ve tekrar eden birden çok girişi ile temsil edilebilir.
Başka bir örnek, aynı şirkete hem iş telefonuna hem de kişisel bir telefona sahip olan ve faturanın aynı adrese gideceği bir müşteri olacaktır - bilmek değerli bir şey. Aynı şekilde, yinelenen kayıtlar, analizlere değer katmadığında ve gerekli olmadığında, bunları kaldırmak muazzam bir değere sahip olabilir. Bu, özellikle yinelenen kayıtların kaldırılmasının verilerin karmaşıklığını basitleştirebileceği ve analiz için gereken zamanı azalttığı büyük veri kümeleri için geçerlidir.
Belirli prosedürleri uygulayarak yanlış verilerin sisteminize girmesini önleyebilirsiniz:
- Toplanan tüm veriler için Enstitü kalite kontrolleri ve veri geçerliliği.
- Müşterilerinizin kişisel verilerinizi doğrulamasına ve kendi kendini düzeltmesine izin verin.
- Müşterilerinize aralarından seçim yapabileceğiniz olası ve beklenen değerleri sunun.
- Verilerin doğruluğunu, tutarlılığını ve doğruluğunu düzenli olarak kontrol edin.