Video: Spss ile Kümeleme (cluster) Analizi 2024
Verileri, algoritmanın tahmini analitik bir model oluşturmak için kullanabileceği bir forma sokmalısınız. Bunu yapmak için, verileri anlamak ve verilerin yapısını bilmek için zaman ayırmanız gerekir. Verilerin yapısını bulmak için işleve yazın. Komutun ve çıktısı şu şekilde görünür: >> str (autos) 'verileri. çerçeve ': 398 obs. 9 değişken: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8 5 10 8. 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 70 … $ V8: int 1 1 1 1 1 1 1 1 1 1 1 … $ V9: 305 kadarı faktör "amc büyükelçisi brougham", …:
50 37 232 15 162 142 55 224 242 2 …Yapıyı inceleyerek, bazı veri hazırlığı ve temizlenmesi gerektiğini söyleyebilirsiniz. İşte gereken görevlerin bir listesi:
-
Bu kesinlikle gerekmez, ancak bu örnek amacıyla sütun adlarını anlamak ve hatırlamak için kullanmak daha iyidir.
V4 (
-
beygir gücü ) veri türünü bir sayısal veri türüne değiştirin. Bu örnekte, beygir gücü, karakter veri türü değil sürekli bir sayısal değerdir.
Kayıp değerleri işleyin.
-
Ayrı değerlere sahip öznitelikleri faktörlere değiştirin.
-
Burada silindirler, model yılı ve orijin ayrık değerlere sahiptir.
V9 (
-
araba adı ) özelliğini atın. Burada araba adı, oluşturduğunuz modele değer katmaz. Orijin özniteliği verilmemişse, orijini araç adı özniteliğinden türetmiş olabilirdiniz.
> colnames (autos) <-
c ("mpg", "silindir", "displacement", "beygir gücü"
Sonra, beygir gücünün veri türünü sayısal olarak aşağıdaki kodu kullanarak değiştirin: >> autos $ beygir gücü <-> gibi. sayısal (otomobiller $ beygir gücü)Program şikayet edecektir çünkü beygir gücündeki tüm değerler sayıların dize gösterimi değil. "?" Olarak temsil edilen bazı eksik değerler vardı. "Karakteri. Şu an için sorun yok çünkü R her örneğini dönüştürüyor? NA'ya.
Sürekli değişkenlerin eksik değerlerini işlemek için kullanılan yaygın bir yöntem, eksik olan her değerin tüm sütunun ortalamasının yerine geçmesidir. Aşağıdaki kod satırı yapar: >> autos $ beygir gücü [olduğu gibi.na (autos $ beygir gücü)] <- ortalama (otoban $ beygir gücü, na. rm = DOĞRU)
na sahip olmak önemlidir. ortalama fonksiyonda rm-TRUE. İşlevin, hesaplamasında boş değerli sütunları kullanmamasını söyler. O olmadan işlev geri dönecektir.
Ardından, nitelikleri ayrı değerlerle faktörlere değiştirin. Üç öznitelik ayrık olarak tanımlanmıştır. Aşağıdaki üç kod satırı, nitelikleri değiştirir. >> autos $ origin autos $ modelYear autos $ cylinders <- factor (autos $ cylinders)
Son olarak, özniteliği veri çerçevesinden şu kod satırıyla çıkarın: >> autos $ carName <- nULL < Bu noktada, modelleme işlemi için verileri hazırlamayı bitirdiniz. Veri hazırlama işleminden sonra yapılan yapının bir görünüşü aşağıdadır: >> str (autos) 'verileri. çerçeve ': 398 obs. 8 değişken: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ silindirler: 5 seviyeli faktör "3", "4", "5", "6", …:
5 5 5 5 5 5 5 5 5 5 … $ yerinden çıkma: num 307 350 318 304 302 429 454 440 455 390 … $ beygir gücü: num 130 165 150 150 140 198 220 215 225 190 … $ ağırlık: num 3504 3693 3436 3433 3449 … $ hızlanma: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ model yılı: 13 seviye "70", "71", "72", …:
1 1 1 ile faktör 1 1 1 1 1 1 1 … $ menşei: 3 seviye "1", "2", "3" ile faktör:
1 1 1 1 1 1 1 1 1 1 …