Video: Kevin Richard - How to rank on Google Turkey? A machine learning-based ranking factor study 2024
Bir makine öğrenme hipotezini etkin bir şekilde doğrulamak, seçtiğiniz algoritmanın daha da optimize edilmesini sağlar. Algoritma, verilerden gelen sinyalleri algılama yeteneği ve tahmini işlevin gerçek fonksiyonel formuna uyumsuzluk getirmeksizin ve tahminlerin çok fazla varyans göstermeden veriniz üzerindeki öngörülü performansın çoğunu sağlar. Her makine öğrenme algoritması verilerinize en uygun değil ve her soruna tek bir algoritma uygun olamaz. Belirli bir sorunun doğru olanını bulmak size kalmış.
Tahmini performansın ikinci bir kaynağı, seçilen algoritmanın öğrenme kabiliyetlerini arttırmak için uygun şekilde dönüştürülüp seçildiğinde verinin kendisidir.
Performansın nihai kaynağı, öğrenmeden önce karar verdiğiniz ve veriden öğrenilemeyen parametreler olan algoritmanın hiper parametrelerini ince ayarlamanızdan kaynaklanır. Onların rolü a priori bir hipotezi tanımlarken, diğer parametreler algoritma verilerle etkileşime geçtikten ve bir optimizasyon işlemi kullanıldıktan sonra onu belirli parametre değerlerini bulur (posteriori,) iyi tahminler elde etmek için daha iyi çalışın.
Hem R hem de Python, giriş matrisinizi tren, test ve geçerlilik bölümlerine ayıran dilimleme işlevleri sunar. Çapraz doğrulama veya önyükleme gibi daha karmaşık test prosedürleri için, Scikit öğrenme paketi tüm bir modül sunar ve R, veri bölme, ön işleme ve test işlevleri sunan özel bir pakete sahiptir.Bu pakete "caret" denir.
Hiper parametrelerin oluşturabileceği olası değer kombinasyonları, optimizasyonların nereden kesileceğine karar vermenizi sağlar. Eğim açılımını tartışırken açıklandığı gibi, bir optimizasyon alanı daha iyi veya daha kötü performans gösteren değer kombinasyonları içerebilir. İyi bir kombinasyon bulduktan sonra bile en iyi seçenek olduğundan emin değilsiniz. (Bu, hatayı en aza indirirken yerel minimale sıkışmanın problemidir.)
Bu sorunun çözümü için pratik bir yöntem olarak, belirli verilere uygulanan bir algoritmanın hiper parametrelerini doğrulamanın en iyi yolu hepsini test etmektir çapraz doğrulama ve en iyi kombinasyonu seçmek. Izgara arama adı verilen bu basit yaklaşım, sistematik olarak algoritmaya girmek için olası değer aralığını örneklemenize ve genel minimum gerçekleştiğinde nokta belirlemenize izin vererek tartışmasız avantajlar sunmaktadır.
Öte yandan, grid arama aynı zamanda ciddi hesaplamalara sahiptir çünkü hesaplama yoğunluğu vardır (bu görevi modern çok çekirdekli bilgisayarlarda paralel olarak kolayca gerçekleştirebilirsiniz) ve oldukça zaman alıcıdır. Dahası, sistematik ve yoğun testler, hataya neden olma ihtimalini arttırır çünkü bazı iyi fakat sahte doğrulama sonuçları, veri kümesindeki gürültüye bağlı olabilir.
Şebeke arama için bazı alternatifler mevcuttur. Her şeyi test etmek yerine, hesaplamalı olarak ağır ve matematiksel olarak karmaşık doğrusal olmayan optimizasyon teknikleriyle (Nelder-Mead yöntemi gibi) yönlendirilen olası hiper parametre değerlerinin alanını, Bayesci bir yaklaşımı kullanarak keşfetmeyi deneyebilirsiniz (test sayısını önceki sonuçların avantajı) veya rasgele arama kullanıyor.
Şaşırtıcı bir şekilde, rasgele arama inanılmaz derecede iyi çalışıyor, anlaşılması basit ve başlangıçta görünmesine rağmen yalnızca kör şansa dayanmıyor. Aslında, tekniğin temel noktası, yeterli sayıda rasgele testi seçerseniz, benzer şekilde performans gösteren kombinasyonların biraz farklı kombinasyonlarını test etmek için enerjiyi harcamaksızın doğru parametreleri bulmak için yeterli imkana sahip olduğunuzdur.
Aşağıdaki grafiksel gösterim, rastgele aramanın niçin işe yaradığını açıklar. Sistematik bir keşif, yararlı olmakla birlikte, her kombinasyonu test etme eğilimindedir; bu, bazı parametreler sonucu etkilemiyorsa, enerji israfına dönüşür. Rastgele arama aslında daha az sayıda kombinasyonu denemekle birlikte, her hiper parametrenin aralığında daha fazla test ederse, sıklıkla olduğu gibi belirli parametrelerin diğerlerinden daha önemli olması durumunda kazandığı ispatlanmış bir strateji.
Şebeke arama ile rastgele aramayı karşılaştırma.
Rasgele arama iyi performans için, en fazla 60 test yapmalısınız. Izgara araştırması daha fazla deneme gerektiriyorsa, rasgele aramaya başvurmak mantıklı olur.