Video: SAP Nedir - ERP Nedir - SAP Hakkında Herşey - Nasıl Öğrenilir - MedyaSoft 2024
Hem basit hem de karmaşık makine öğrenme algoritmalarını eğitmek için yeterli sayıda örneğe sahip olsanız bile, özelliklerde tam değerler sunmak zorundasınız; eksik veri. Tamamlanmamış bir örneği olması, özelliklerin içindeki ve içindeki tüm sinyalleri birleştirmeyi imkansız hale getirir. Eksik değerler, algoritmanın eğitim sırasında öğrenilmesini zorlaştırıyor. Kayıp verilerle ilgili bir şeyler yapmalısınız.
Çoğu durumda, eksik değerleri göz ardı edebilir veya muhtemel değiştirme değerini tahmin ederek onarabilirsiniz. Bununla birlikte, çok eksik değerler daha belirsiz tahminlerde bulunur; çünkü eksik bilgiler herhangi bir olasılığı gizleyebilir; Dolayısıyla, özelliklerdeki eksik değerler ne kadar çok olursa, tahminler o kadar değişken ve net değildir.
İlk adım olarak, her değişkende eksik vakaların sayısını sayın. Bir değişkende çok fazla eksik kasa varsa, eğitim ve test veri kümesinden bırakmanız gerekebilir. Örneklemin yüzde 90'ından fazlası eksikse, bir değişkeni bırakmak iyi bir kuraldır.
Bazı öğrenme algoritmaları, eksik değerlerle nasıl başa çıkılacağını bilmemekte ve hem eğitim hem de test evrelerinde hataları raporlamaktadır; diğer modeller, onları sıfır değerler olarak kabul etmekte ve tahmin edilen değer veya olasılığın küçümsenmesine neden olmaktadır (Sanki formülün bir kısmı düzgün çalışmıyor gibi). Sonuç olarak, doğru gerçekleşmesi için makine öğrenimi için veri matrisindeki tüm eksik değerleri uygun bir değere değiştirmeniz gerekiyor.
Veri eksikliği için pek çok neden var, ancak temel nokta, verilerin rastgele veya belirli bir sırada eksik olup olmadığı. Rasgele eksik veri rastlantısal olmaksızın basit bir ortalama, medyan veya başka bir makine öğrenme algoritması kullanarak değerini tahmin edebildiğiniz için idealdir. Bazı vakalar, belirli örnek türlerine karşı güçlü bir önyargı içerir.
Örneğin, bir nüfusun gelirini incelemek konusunu düşünün. Zengin insanlar (vergi nedenleriyle, muhtemelen) bilmediklerini size bildirerek gerçek gelirlerini gizleme eğilimindedirler. Öte yandan, yoksul insanlar, olumsuz yargı korkusu nedeniyle gelirlerini bildirmek istemediklerini söyleyebilir. Nüfusun belirli katmanlarından bilgi almıyorsanız, eksik verilerin onarımı zor ve yanıltıcı olabilir, çünkü bu tür davaların diğerleri gibi olduğunu düşünebilirsiniz.
Bunun yerine, tamamen farklı. Bu nedenle, eksik değerleri değiştirmek için yalnızca ortalama değerleri kullanamazsınız - karmaşık yaklaşımları kullanmanız ve bunları dikkatle ayarlamanız gerekir.Dahası, veri kümesindeki rasgele eksik olmayan durumların tespit edilmesi zordur çünkü eksik değerlerin veri kümesindeki diğer değişkenlerle nasıl ilişkili olduğunun daha yakından incelenmesini gerektirir.
Veriler rastgele eksik olduğunda, diğer değişkenlerden gerçek değerlerine ipuçları verdiğinden boş değerleri kolayca onarabilirsiniz. Veriler rasgele eksik olmadığında, eksik kasa ile olan veri ilişkisini anlamadığınız sürece, mevcut bilgilerden iyi ipuçları alamazsınız.
Dolayısıyla, verilerinizde kayıp geliri bulmak zorundaysanız ve kişi varlıklı olduğundan eksikse, eksik bir değeri, onu orta gelir ile değiştireceğinizden basit bir ortalama ile değiştiremezsiniz. Bunun yerine, zengin insanların gelirinin bir ortalamasını yerine koymalısınız.
Veri rastgele eksik olmadığında, eksik grubun izini bulmasına yardımcı olması nedeniyle değerin eksik olması bilgilendirici olur. Bir değişkenin değeri eksik olduğunda rapor veren yeni bir ikili özellik oluşturarak, makine öğrenme algoritması için eksik olanı aramaya başlayabilirsiniz. Sonuç olarak, makine öğrenme algoritması kendiliğinden bir yedek olarak kullanılacak en iyi değeri bulacaktır.