Video: İleri Analitiklere Giriş 2024
Herhangi bir ticaret sisteminin birçok yönü ile olduğu gibi, veriler bir insanın yarattığı şeydir - bu nedenle, ilk önce kullanışlılığı konusunda bazı sınırlamalara eğilimlidir onu elde et. İşte karşılaşmanız muhtemel bazı kısıtlamaların bir özeti:
-
Veriler eksik olabilir. Eksik değerler, bir bölümün eksikliği veya verinin önemli bir kısmı bile kullanılabilirliğini sınırlayabilir.
Örneğin, verileriniz, modellemeye çalıştığınız daha büyük bir kümenin yalnızca bir veya iki koşulunu kapsayabilir - borsa performansını analiz etmek için oluşturulmuş bir model yalnızca son 5 yılda mevcut olan verilere sahipti; bu veriler her iki tarafın çarpılmasına neden oldu veri ve model bir boğa piyasası varsayımına doğru.
Piyasanın ayı pazarına yol açan herhangi bir düzeltme yaptığı andan itibaren modeli uyarlamayı başaramıyor çünkü sadece bir ayı piyasasını temsil eden verilerle eğitimli ve test edilmedi.
Verilerinizin doğal dalgalanmalarının tam bir resmini veren bir zaman dilimine baktığınızdan emin olun; verileriniz mevsimsellik ile sınırlandırılmamalıdır.
-
Anketlerden alınan verileri kullanıyorsanız, insanların her zaman doğru bilgi vermediğini unutmayın. Herkes, haftada bir kaç kez (ya da kaç tane alkollü içecek aldığını) gerçek anlamda (yani) cevap vermez. İnsanlar kendi bilincine sahip olmayan kadar dürüst olmayan olabilir, ancak veriler hala çarpık.
-
Farklı kaynaklardan toplanan veriler kalite ve formatta değişiklik gösterebilir. Anketler, e-postalar, veri girişi formları ve şirket web sitesi gibi çeşitli kaynaklardan toplanan veriler farklı nitelik ve yapılara sahip olacaktır. Çeşitli kaynaklardan gelen veriler, veri alanları arasında çok fazla uyumluluk göstermeyebilir. Bu tür veriler, analiz hazır olmadan önce önemli önişlem gerektirir. Eşlik eden kenar çubuğu bir örnek sağlar.
Birden çok kaynaktan toplanan veriler, biçimlendirmede, yinelenen kayıtlarda ve birleştirilmiş veri alanları arasındaki tutarsızlıklarda farklılık gösterebilir. Bu tür verileri temizlemek uzun süre harcayacağınızı ve daha da uzun süre güvenilirliğini doğrulayacağımızı umuyoruz.
Verilerinizin sınırlamalarını belirlemek için:
-
Modelinizde kullanacağınız tüm değişkenleri doğrulayın.
-
Özellikle zamanla verilerin kapsamını değerlendirin, böylece modeliniz sezonluk tuzağından kurtulabilir.
-
Kayıp değerler olup olmadıklarını kontrol edin, onları tanımlayın ve bunların genel analiz üzerindeki etkilerini değerlendirin.
-
Aşırı değerlere (sapkın değerler) dikkat edin ve bunları analizlere dahil edip etmemeye karar verin.
-
Eğitim ve test verilerinin yeterince büyük olduğunu teyit edin.
-
veri türü (tam sayılar, ondalık değerler veya karakterler vb.) Doğru olduğundan emin olun ve olası değerlerin üst ve alt sınırlarını ayarlayın.
-
Verileriniz çoklu kaynaklardan geldiğinde veri entegrasyonuna dikkat edin.
Veri kaynağınızı ve bunların verilerinizin genel kalitesi üzerindeki etkilerini anladığınızdan emin olun.
-
Tüm popülasyonu temsil eden ilgili bir veri kümesi seçin.
-
Analiziniz için doğru parametreleri seçin.
Tüm dikkat ve özenden sonra bile, verilerin doğru bir şekilde analiz edilmeden önce ön işleme tabi tutulması gerekiyorsa şaşırmayın. Önişleme işlemi, orijinal verilerle ilgili birçok sorunu çözmek zorunda kalması nedeniyle sıklıkla uzun bir zaman alır ve ciddi bir çaba gerektirir - bu sorunlar şunları içerir:
-
Veriden eksik herhangi bir değer.
-
Verilerde tutarsızlıklar ve / veya hatalar var.
-
Verilerde herhangi bir kopya veya aykırı değer.
-
Verilerin normalleştirilmesi veya başka bir şekilde dönüştürülmesi.
-
Analiz için gerekli türetilmiş veriler.