Makina Öğrenmesinde Örnek Eğilimler ve Sızıntı Tuzaklarından kaçınmak - mankenler

Makine öğrenimine onaylama yaklaşımı, numune alma önyargılarına yönelik muhtemel bir çare incelenmesidir. Makine öğrenmesi harekete geçirilmeden önce verilerinizde numune alma yanlılığı olabilir ve aşağıdaki tahminlerin yüksek varyansına neden olur. Buna ek olarak, numunenin dışındaki bazı bilgiler örnek içi verilere geçtiğinde ortaya çıkabilecek kaçak tuzakları farkında olmalısınız. Bu sorun, verileri hazırlarken veya makine öğrenme modeli hazır olduktan sonra çalışabilir.

Tahmin edicilerin bir araya getirilmesi olarak adlandırılan çözüm, eğitim örneğiniz tamamen bozulmadığında ve dağılımı numunenin dışındakinden farklıysa, ancak çözümlenemez bir şekilde, örneğin tüm dersleriniz var olduğu halde, doğru orantılı değilken (örnek olarak). Bu gibi durumlarda, sonuçlarınız, muhtemelen birkaç yoldan birinde dengeleyebileceğiniz tahminlerin belirli bir varyansından etkilenir: önyükleme sırasında olduğu gibi yeniden örnekleme; subsampling (örneklemin bir örneği alınarak); veya daha küçük numuneler (önyargı artar) kullanarak.

Toplulukların bu kadar etkili bir şekilde nasıl işlediğini anlamak için boğa gözünün görüntüsünü görselleştirin. Örnekiniz tahminleri etkiliyorsa, bazı öngörüler kesin olacak ve diğerleri rastgele bir şekilde yanlıştır. Örnekinizi değiştirirseniz, doğru öngörüler doğru olmaya devam eder, ancak yanlış olan tahminler farklı değerler arasında varyasyonlar oluşturmaya başlar. Aradığınız kesin tahmin bazı değerlerdir; diğerleri sadece doğru olanın etrafında salınacaklardır.

Sonuçları karşılaştırarak, tekrar eden şeylerin doğru cevabı olduğunu tahmin edebilirsiniz. Ayrıca, ortalama bir cevap alabilir ve doğru cevabın değerlerin tam ortasında olduğunu tahmin edebilirsiniz. Boğa gözü oyunu ile, farklı oyunların üstüste binen fotoğraflarını görselleştirebilirsiniz: Sorun varyansa, sonuçta hedefin en sık karşılaşılan alanda olduğunu veya en azından tüm çekimlerin merkezinde olduğunu tahmin edeceksiniz.

Çoğu durumda, böyle bir yaklaşım kanıtlar ve makinenizin öğrenme tahminlerini çok geliştirir. Sorununuz yanlıştır ve varyans değilse, çok az numune alt örneklemediğiniz takdirde, topluluğu kullanma gerçekten zarar vermez. Alt örneklemeyle ilgili iyi bir kural, bir örneklemin orijinal örnek verilerle karşılaştırıldığında yüzde 70 ila yüzde 90 arasında olmasıdır. Topluluk çalışması yapmak istiyorsanız, aşağıdakileri yapmalısınız:

Verileriniz ve modelleriniz boyunca çok sayıda tekrarlayın (en azından üç iterasyondan, ideal olarak yüzlerce kez tekrarlanabilir).
Her tekrarladığınızda örnek verilerinizi alt örnek olarak (veya başka bir şekilde önyükleme yaparak) uygulayın.
Yeniden örneklenmiş veriler üzerinde model için makine öğrenimi kullanın ve örnek dışı sonuçları tahmin edin. Sonuçları daha sonra kullanmak üzere saklayın.
Yinelemelerin sonunda, tahmin etmek istediğiniz tüm örnek olaylar için, tüm tahminlerini yapın ve gerileme yapıyorsanız bunları ortalama alın. Sınıflandırma yapıyorsanız, en sık dersi alın.

Sızıntı tuzakları sizi şaşırtabilir, çünkü makine öğrenme süreçlerinizde bilinmeyen ve tespit edilmemiş bir problem kaynağı olduğunu kanıtlayabilirler. Sorun gizlice soruluyor veya örnek dışı verilerin çok fazla gözlemlenmesi ve ona çok fazla uyum sağlaması. Kısacası, gözetleme, birtakım gereğinden fazla uyuşma özelliğidir - yalnızca eğitim verisi değil, aynı zamanda test verisi üzerinde olduğundan, aşırı alım sorunu kendisini yeni veriler elde edilene kadar algılamak zorlaştırır.

Genellikle, makine öğrenme algoritmasını işinize veya bir servise herkese açık bir şekilde uyguladığınızda sorunun dikkatini çektiğini ve problemin herkes tarafından görülebileceği bir sorun haline geldiğini anlarsınız.

Snooping'i iki şekilde önleyebilirsiniz. İlk olarak, veriler üzerinde çalışırken, eğitim, doğrulama ve test verilerini düzgün şekilde ayırmaya dikkat edin. Ayrıca, işlerken hiçbir zaman doğrulama veya test, hatta en basit ve masum görünüşlü örneklerden hiçbir bilgi almayın. Daha da kötüsü, tüm verileri kullanarak karmaşık bir dönüşüm uygulamaktır.

Finans, örneğin, tüm eğitim ve test verilerinden ortalama ve standart sapmanın (piyasa koşulları ve risk hakkında çok şey söyleyebilen) hesaplanmasıyla, modelleriniz hakkında değerli bilgiler sızdırılabileceği iyi bilinmektedir. Sızıntı meydana geldiğinde, makine öğrenme algoritmaları piyasadaki örnek dışı verilerden ziyade test setinde öngörüler yapar; bu, hiç çalışmadığı, dolayısıyla bir para kaybına neden olduğu anlamına gelir.

Örnek dışı örneklerinizin performansını kontrol edin. Aslında, bazı parametrelerin diğerlerinden daha iyi olduğunu belirlemenize yardımcı olması veya başka bir makine öğrenme algoritması yerine bir makine öğrenme algoritması seçmenize yardımcı olması için, test sonuçlarındaki snoopinginizden bazı bilgileri geri getirebilirsiniz. Her model veya parametre için, çapraz doğrulama sonuçlarına veya doğrulama örneğine dayalı olarak seçiminizi uygulayın. Örnek verilerinizin dışına çıkmak için asla düşmeyin ya da daha sonra pişman olmalısınız.