Video: Curious and Genius Bilişsel Beceriler Geliştirme Aktiviteleri - Profil Analiz Testi 2024
Tahmini analitikteki bir diğer görev bağımsız verilerin bir kümesi göz önüne alındığında, bir hedef verinin hangi sınıfın ait olduğunu tahmin ederek yeni verileri sınıflandırmaktır. Örneğin, karar ağacını kullanarak, bir müşteriyi türe göre, örneğin yüksek değerli bir müşteri, normal bir müşteri veya bir rakibe geçiş yapmaya hazır bir müşteri olarak sınıflandırabilirsiniz.
R Sınıflandırma modeli hakkında bazı yararlı bilgileri görmek için aşağıdaki kodu yazın:
Sınıf sütunu size bir karar ağacı oluşturduğunuzu bildirir. Bölmelerin nasıl tespit edildiğini görmek için, modeli atadığınız değişken adını, bu durumda bu gibi modelde şöyle yazabilirsiniz: >> modeli 6 terminal düğümlü koşullu çıkarım ağacı Yanıt: seedType Girişleri: alan, çevre, kompaktlık, uzunluk, genişlik, asimetri, uzunluk2 Gözlem sayısı: 147 1) alan <= 16. 2; kriter = 1, istatistik = 123. 423 2) alan <= 13. 37; kriter = 1, istatistik = 63. 549 3) uzunluk2 4. 914 5) * ağırlıkları = 45 2) alan> 13. 37 6) uzunluk2 5. 396 8) * ağırlıkları = 8 1) alan> 16 2.9) uzunluk2 5. 877 11) * weight = 40
Daha da iyisi, bu kodu kullanarak karar ağacını bir arsa oluşturarak modelinizi görselleştirebilirsiniz:> plot (model)
Bu bir karar ağacının grafiksel bir temsilidir. Genel şeklin gerçek bir ağacın şeklini taklit ettiğini görebilirsiniz.
düğümleri(daireler ve dikdörtgenler) ve bağlantılar veya kenarları (bağlantı çizgileri) 'den oluşur. İlk düğüm (üstten başlayarak) kök düğümü
olarak adlandırılır ve ağacın en altındaki düğümlere (dikdörtgenler) terminal düğümleri adı verilir. Beş karar düğümü ve altı terminal düğümü vardır.
Düğüm 1 olan kök düğümden başlayın (sayı, çemberin üst kısmındaki küçük karede gösterilir). Özniteliğe göre karar verin: Gözlem # 2, (<= ile gösterilir) eşit veya daha küçük 16 mı?2? cevap evet, bu nedenle düğüm 2 yolu boyunca hareket ettirin.
Düğüm 2'de model şunu sorar: Alan 13. 37 mi? Cevap evet, bu nedenle düğüm 6 yolu boyunca ilerleyin. Bu düğümde model sorar: Uzunluk2 <= 5. 396 mı? öyle ve terminal düğüm 7'ye geçiyorsunuz ve karara bakınız: 2. gözlem, tohum türü 1'dir. Ve aslında, tohum türü 1'dir.
-
Model, diğer gözlemlerin hepsini tahmin etmesi için bu işlemi yapar sınıflar.
-
İyi bir modeli eğitip yetiştirmediğinizi öğrenmek için eğitim verilerine karşı kontrol edin. Sonuçları aşağıdaki kodla bir tabloda görebilirsiniz: >> tablosu (tahmin (model), trainSet $ seedType) 1 2 3 1 45 4 3 2 3 47 0 3 1 0 44
Sonuçlar göstermektedir ki, hata (veya yanlış sınıflandırma oranı) 147'den 11'dir veya yüzde 7,48'dir.
-
Sonuçlar hesaplandıktan sonra, bir sonraki adım tabloyu okumaktır.
Sütun ve sıra numaralarını aynı şekilde gösteren doğru öngörülerdir. Bu sonuçlar, sol üstten sağa doğru çapraz bir çizgi olarak ortaya çıkıyor; Örneğin, [1, 1], [2, 2], [3, 3] o sınıf için doğru tahminlerin sayısıdır.
Yani tohum türü 1 için, model tohumun 7 kez yanlış sınıflandırılması sırasında 45 kez tahmin etmişti (tohum türü 2 olarak 4 kez ve tür 3 olarak 3 kat). Tohum türü 2 için, model doğruca 47 kez, ancak 3 kez yanlış sınıflandırırken onu öngördü. Tohum türü 3 için, model bir kez yalnızca bir kez yanlış sınıflandırırken 44 kez doğru tahmin etti.
-
Bu, bunun iyi bir model olduğunu gösterir. Şimdi bunu test verileri ile değerlendiriyorsunuz. Test verilerini daha sonra kullanmak üzere bir değişkende (testPrediction) tahmin etmek ve depolamak için kullanan kod şöyledir: >> testPrediction <- predict (model, newdata = testSet)
Modelin test verilerini bir tabloya bakınız ve kodu aşağıdaki gibi görünen hatayı hesaplayınız: >> tablosu (testPrediction, testSet $ seedType) testPrediction 1 2 3 1 23 2 1 2 1 19 0 3 1 0 17