Video: Avuç Çizgileriniz Ne Söylüyor ? (%90 Doğru Tahmin) 2024
Denetimsiz öğrenme, bir algoritma çalıştırdığınızda neler bekleyebileceğini bilmemek de dahil olmak üzere tahmininiz için birçok zorluk çıkarmaktadır. Her algoritma farklı sonuçlar üretecektir; bir sonucun diğerinden daha iyi olup olmadığından ya da sonucun herhangi bir değere sahip olup olmadığından asla emin olamazsınız.
Sonuçların ne olması gerektiğini biliyorsanız, arzu edilen sonuçların elde edilmesi için algoritmaları ayarlayabilirsiniz. Gerçek dünya veri kümelerinde bu lüksünüz olmayacak. Modelinizi oluştururken hangi başlatma parametrelerinin ve algoritmalarının kullanılacağına karar vermek için verilerin önceden bilinmesine (veya sezilerine) güvenmelisiniz.
Bununla birlikte, gerçek denetimsiz öğrenme görevlerinde, bu ön bilgi mevcut değildir ve arzulanan sonucun bulunması zordur. Kilit küme sayısının seçilmesi kilit problemdir. Doğru sayıda kümeye rastlarsanız verileriniz, son derece kesin tahminler yapabileceğiniz bilgiler verecektir. Kapak tarafında, yanlış sayıda kümelerin tahmin edilmesi, daha düşük sonuçlar verebilir.
K-means algoritması, orantılı boyutlara ve doğrusal olarak ayrılabilir verilere sahip az sayıda küme bulunan veri kümeleri için iyi bir seçimdir - ve çok büyük veri kümelerinde algoritmayı kullanmak üzere ölçekleyebilirsiniz.
Doğrusal olarak ayrılabilen verilerini bir grafikte düz bir çizgi ile ayrılabilen bir grup nokta olarak düşünün. Veriler doğrusal olarak ayrılabilir değilse, o zaman K-aracının daha gelişmiş versiyonları kullanılacaktır - bu hesaplamayla daha pahalı hale gelecek ve çok büyük veri setleri için uygun olmayabilir. Standart uygulamasında, küme merkezlerini ve mesafeleri hesaplama karmaşıklığı düşüktür.
Sclicit öğrenmede DBSCAN (Yoğunluğa Dayalı Uygulamaların Yoğunluğa Dayalı Uzaysal Kümeleme) uygulanması, bir örnek oluşturmak için herhangi bir kullanıcı tanımlı başlatma parametresi gerektirmez. İsterseniz başlatma işlemi sırasında varsayılan parametreleri geçersiz kılabilirsiniz. Ne yazık ki, varsayılan parametreleri kullanıyorsanız, algoritma istenilen sonuca yakın bir eşleşme sağlayamaz.
DBSCAN, orantısız küme boyutlarına sahip ve veri doğrusal olmayan biçimde ayrılabilen veri kümeleri için daha uygundur.K-means gibi, DBSCAN ölçeklenebilir, ancak çok büyük veri kümelerinde kullanmak daha fazla bellek ve bilgi işlem gücü gerektirir.