Video: 2011 09 11 An Interview with Mehran Tavakoli Keshe (MT Keshe) 2024
Bazen makine öğrenimi, çapraz doğrulama yöntemine başvurmanız gerektiğini gerektirir. Tren / test setinin bölünmesiyle ilgili dikkat çekici bir sorun, örnek eğitim verilerinizin boyutunu düşürdüğünüz için, aslında testinize önyargı getirdiğiniz anlamına gelir. Verilerinizi böldüğünüzde, eğitimden bazı yararlı örnekler tutabilirsiniz. Üstelik bazen verileriniz çok karmaşıktır, çünkü bir test seti, eğitim setine benzemekle birlikte, gerçekten birbirine benzemez, çünkü değer kombinasyonları farklıdır (yüksek boyutlu veri kümelerine tipiktir).
Bu örnekler pek çok örneğe sahip olmadığınızda örnekleme istikrarsızlığına neden olur. Verilerinizi elverişsiz bir şekilde bölme riski, bir makine öğrenme çözümünü değerlendirip ayarlamanız gerektiğinde, tren / test bölünmesinin makine öğrenimi uygulayıcıları tarafından tercih edilen bir çözüm olmadığının nedenini de açıklar.
Aslında k-katlarına dayalı çapraz doğrulama cevabıdır. Rastgele bölünmeye dayanır; ancak bu sefer verilerinizi, eşit sayıda kıvrım sayısına (verilerinizin bölümleri) böler. Ardından, her kıvrım bir test seti olarak ve diğerleri de eğitim için kullanılır. Her yineleme, farklı bir kıvrımı, hata tahmini üreten bir sınama olarak kullanır.
Aslında, eğitim olarak kullanılan diğerlerine kıyasla bir kat üzerinde testi tamamladıktan sonra, bir önceki hattan farklı olan bir ardışık kat uygulanır ve başka bir hata tahmini üretmek için prosedür tekrarlanır. Süreç, tüm k-kıvrımları bir kez test kümesi olarak kullanana kadar devam eder ve bir ortalama hata tahmini (çapraz doğrulama puanı) ve tahminlerin standart bir hatası olarak hesaplayabildiğiniz k sayıda hata tahminine sahipsinizdir.
Bu prosedür aşağıdaki avantajları sağlar:
- Örneklerin sayısından bağımsız olarak iyi çalışır, çünkü kullanılan kat sayısını artırarak, eğitim setinizin boyutunu arttırırsınız (daha büyük k, daha büyük eğitim seti, önyargı azaltılmış) ve test kümesinin boyutunun azaltılması.
- Münferit kıvrımların dağılımındaki farklılıklar o kadar önemli değildir. Katlama, diğerlerine kıyasla farklı bir dağılıma sahip olduğunda, bir kez test seti olarak kullanılır ve kalan testler sırasında eğitim takımının bir parçası olarak diğerleriyle harmanlanır.
- Gerçekten tüm gözlemleri test ediyorsunuz, böylece sahip olduğunuz tüm verileri kullanarak makine öğrenme hipotezini tam olarak test ediyorsunuz.
- Sonuçların ortalamasını alarak, tahmin edici bir performans bekleyebilirsiniz. Buna ek olarak, sonuçların standart sapması, örnek dışı gerçek verilerde ne kadar varyasyon bekleyebilirsiniz size söyleyebilir. Çapraz doğrulanmış performanslardaki daha yüksek varyasyon, algoritmanın düzgün şekilde yakalayamadığı son derece alacalı verilerden haberdar olur.
Kullandığınız veriler önemli olan bir takım sipariş olmadıkça, k katlı çapraz doğrulamayı kullanmak her zaman en iyi seçimdir. Örneğin, satışlar gibi bir zaman serisi içerebilir. Bu durumda, rastgele bir örnekleme yöntemi kullanmamalısınız, bunun yerine siparişin korunması için orijinal sekansa dayalı bir tren / test bölünmesine güvenmek ve sipariş edilen serilerin son örneklerini test edebilirsiniz.