Video: Machine Learning & Artificial Intelligence: Crash Course Computer Science #34 2024
Makine öğrenimi, numune verilerine çok bağlıdır. Verilerinizin bu kısmı, dünyanın bakış açısını keşfetmek istediğiniz için önemlidir ve tüm bakış açılarında olduğu gibi yanlış, çarpıtılmış veya yalnızca kısmi olabilir. Ayrıca, öğrenme sürecinin çalışıp çalışmadığını kontrol etmek için örnek dışı bir örneğe ihtiyacınız olduğunu da biliyorsunuzdur. Bununla birlikte, bu yönler resmin yalnızca bir bölümünü oluşturmaktadır.
Bir makine öğrenme algoritması, belirli bir cevabı tahmin etmek için veriler üzerinde çalışırsa, etkili bir şekilde bir kumar oynamaya başlarsınız ve bu kumar sadece öğrenme için kullandığınız örnek değildir. Fazlası var. Şu an için, uygun, tarafsız ve örnek içi verilere serbestçe erişebildiğinizi düşünün, böylece veri sorun değildir. Bunun yerine, öğrenme ve öngörme yöntemine konsantre olmanız gerekir.
Öncelikle, algoritmanın cevabı mantıklı bir şekilde tahmin edebileceğini bahis ettiğini düşünmelisin. Bu varsayımı her zaman yapamazsınız, çünkü önceden bildikleriniz ne olursa olsun belirli cevapları bulmak mümkün değildir.
Örneğin, insanoğlunun geçmiş tarih ve davranışlarını bilerek davranışlarını tam olarak tespit edemezsiniz. Belki rastgele bir etki, davranışımızın üretken sürecine (örneğin bizim irrasyonel tarafımıza) karışmaktadır veya belki konu özgür iradeden gelmektedir (sorun aynı zamanda felsefi / dini bir sorundur ve birçok uyuşmayan görüş vardır). Sonuç olarak, yalnızca bazı yanıt türlerini tahmin edebilirsiniz ve diğerleri için, örneğin, insanların davranışlarını öngörmeye çalıştığınızda, şans eseri amaçlarınız için kabul edilebilir olan belirli bir belirsizlik derecesini kabul etmeniz gerekir.
İkinci olarak, sahip olduğunuz bilgi ile tahmin etmek istediğiniz yanıt arasındaki ilişkinin bir takım matematiksel bir formül olarak ifade edilebileceğini ve makinenizin öğrenmesinin bahis oynadığını algoritması aslında bu formülü tahmin edebiliyor. Algoritmanın bir yanıtın arkasındaki matematiksel formülü tahmin etme kapasitesi aslen algoritmanın somutları ve cıvataları içine gömülür.
Bazı algoritmalar neredeyse her şeyi tahmin edebilir; diğerlerinin aslında sınırlı sayıda seçenekleri vardır. Bir algoritmanın tahmin edebileceği muhtemel matematiksel formülasyonların aralığı, olası hipotezler dizisidir. Sonuç olarak, bir hipotez, tüm parametrelerinde belirtilen tek bir algoritma olup tek bir spesifik formülasyona sahiptir.
Matematik harika. Gerçek dünyanın çoğunu basit bir gösterimle tarif edebilir ve herhangi bir öğrenme algoritmasının matematiksel bir formülasyonu temsil edebilecek belirli bir kabiliyete sahip olması nedeniyle makine öğreniminin özüdür.Doğrusal gerileme gibi bazı algoritmalar, bir yanıtın (örneğin, bir evin fiyatı gibi) bir dizi öngörülen bilgiyle (piyasa bilgileri, evin konumu, mülkün yüzeyi gibi) nasıl ilişkili olduğunu göstermek için açık bir şekilde belirli bir matematiksel formülasyon kullanır; ve bunun gibi).
Bazı formülasyonlar çok karmaşık ve karmaşıktır, ancak bunları kağıda yansıtmak mümkün olsa da pratik açıdan bunu yapmak çok zordur. Karar ağaçları gibi bazı diğer sofistike algoritmalar açık bir matematiksel formülasyona sahip değildir, ancak çok geniş bir formülasyon formülasyonuna kolayca yaklaşacak şekilde ayarlanabilecek şekilde uyarlanabilirdir. Örnek olarak, basit ve kolayca açıklanan bir formülasyon düşünün. Doğrusal gerileme, yanıt ve tüm öngörüler tarafından verilen koordinatlarda sadece bir çizgidir. En kolay örnekte, y = β 1 x 1 + β formülüyle bir cevap, y ve tek bir öngördürücü x olabilirsiniz. 0
Tek bir özellik tarafından öngörülen basit bir yanıtta bu tür bir model, verilerinizi kendiliğinden düzenlerken idealdir. Bununla birlikte, eğri değilse ve bunun yerine kendisini şekillendirirse ne olur? Durumu temsil etmek için, aşağıdaki iki boyutlu tasvirleri gözlemlemeniz yeterlidir.
Bir eğri fonksiyonunu haritalamak için mücadele eden doğrusal bir model örneği.Puanlar bir çizgi veya buluta benzediğinde, sonucun düz bir çizgide olduğunu anladığınızda bazı hata oluşur; Dolayısıyla önceki formülasyonun sağladığı haritalandırma bir şekilde yanlış anlaşılacaktır. Bununla birlikte, hata bazı noktalar çizilen çizginin üzerinde ve diğerlerinin altında olduğu için, sistematik olarak değil rastgele görünür. Kavisli, şekilli bulutların bulunduğu durum farklıdır, çünkü bu sefer çizgi bazen kesindir ancak diğer zamanlar sistematik olarak yanlıştır. Bazen noktalar daima çizginin üstündedir; bazen altındalar.
Yanıt eşleştirmesinin basitliği göz önüne alındığında, algoritmanız sistematik olarak, önyargılarını temsil eden verinin arkasındaki gerçek kuralları fazla tahmin etme eğilimindedir. Önyargı, karmaşık matematik formüllerini ifade edemeyen basit algoritmaların karakteristiğidir.