Video: Kümeleme algoritmaları ve Knime uygulamaları 2024
Kümeleme algoritmalarını, veri kümelerini, önceden tanımlanmış bir öznitelik için en benzer olan veri noktalarının kümelerine ayırmak için kullanırsınız. Belirli bir özellik hakkında birden fazla öznitelik açıklayan ve veri noktalarınızı özellik benzerliklerine göre gruplandırmak istediğiniz bir veri kümeniz varsa, kümeleme algoritmaları kullanın.
Ülke Gelir ve Eğitim veri setlerinin basit bir dağılım haritası burada gördüğünüz tabloya neden olur.
Kontrolsüz kümeleme, bu verilere başlar ve daha sonra alt gruplara bölmeye devam edersiniz. Bu alt kümelere kümeler adı verilir ve birbirine en çok benzer veri noktalarından oluşurlar. Düşük gelirli ve eğitimli en az iki küme, muhtemelen üçte biri var, daha sonra yüksek öğretim ülkeleri düşük ve yüksek gelir arasında bölünmüş gibi görünüyor.
Aşağıdaki resim, bu veri kümesindeki kümeler hakkında görsel bir tahminde bulunan gözlü sonucunu göstermektedir.
Kümeleme hakkında görsel tahminler üretebilirseniz de, sizin için kümeler oluşturmak için algoritmalar kullanarak çok daha büyük veri kümeleri ile uğraşırken daha doğru sonuçlar elde edebilirsiniz. Görsel tahmin yalnızca en küçük karmaşıklığın küçük veri kümelerinde yararlı olan kaba bir yöntemdir. Algoritmalar - kesin, tekrarlanabilir sonuçlar üretir ve veri kümenizdeki birden çok veri boyutu için kümeleme oluşturmak için algoritmalar kullanabilirsiniz.
Kümeleme algoritmaları, denetlenmeyen makine öğrenmesinde bir yaklaşım türüdür - diğer yaklaşımlar Markov yöntemlerini ve boyut azaltma yöntemlerini içerir. Kümeleme algoritmaları, aşağıdaki özelliklerin geçerli olduğu durumlarda uygundur:
-
Analiz ettiğiniz veri kümesini bilir ve anlarsınız.
-
Kümeleme algoritmasını çalıştırmadan önce alt grupların (kümelenmelerin) niteliği hakkında kesin bir fikriniz yok. Çoğu zaman, algoritmayı çalıştırmadan önce veri setinde kaç tane alt grubun olduğunu bile bilmeyeceksiniz.
-
Altkümeler (kümeler) yalnızca analiz edeceğiniz tek bir veri kümesi tarafından belirlenir.
-
Amacınız, alt kümeleri tek bir veri kümesinde ve yalnızca bu veri kümesinde açıklayan bir modeli belirlemektir.
Daha fazla veri eklerseniz, eksiksiz ve doğru model sonuçları elde etmek için analizin sıfırdan tekrar çalıştırılması gerekir.