Video: 11) Regresyon Analizi, En Küçük Kareler Yöntemi, Standart Hata Terimi | İSTATİSTİK | XDERS 2024
Bilinen çıktıları kullanarak değerlendirebileceğiniz bir tahmini analitik model oluşturmak istiyorsunuz. Bunu yapmak için, veri setimizi iki gruba ayıracağız: biri modeli eğitmek için ve diğeri modeli test etmek için. Eğitim ve test veri kümeleri arasında 70/30 bölünmüşlük yeterli olacaktır. Sonraki iki kod satırı, her kümenin boyutlarını hesaplar ve depolar: >> trainSize testSize <- nrow (autos) - trainSize
Değerleri çıktılamak için değeri depolamak için kullanılan değişkenin adını yazın ve Enter'a bas. İşte çıktı:
Verileri inceledikten sonra, ağır, sekiz silindirli, daha büyük hacimli, daha yüksek beygir gücü otomobillerinin çoğunun veri setinin üstünde olduğunu görebilirsiniz. Bu gözlemden, veriler üzerinde herhangi bir algoritma çalıştırmaya gerek duymadan, eski arabaların yeni arabalara kıyasla (genel olarak bu veri kümesi için) şu şekilde olduğunu söyleyebilirsiniz:
Daha ağırSekiz silindir
-
Var daha büyük yer değiştirme
-
-
Daha büyük beygir gücüne sahip
Pekala, açıkçası birçok kişi otomobiller hakkında bir şey biliyor, bu nedenle verileri gördükten sonra korelasyonların ne olduğu konusunda çok fazla bilgi bulunmayacak. Birçok otomobil bilgisine sahip bir kişi, verileri bile bakmadan bunu zaten biliyor olabilir. -
Bu, birçok insanın bağlantı kurabileceği basit bir alan adının (arabalar) bir örneğidir. Ancak bu kanser hakkında bir veri olsaydı, çoğu insan hemen her özellikten ne anlama geldiğini anlamazdı.
Burada, bir alan uzmanı ve veri modelleyicisi modelleme süreci için hayati önem taşıyor. Etki alanı uzmanları hangi niteliklerin en (veya en az) önemli olabileceği ve birbirleriyle nasıl ilişkilendirileceği konusunda en iyi bilgiye sahip olabilirler.
Deney yapacak olan değişkenleri veri modelleyicisine önerebilirler. Daha önemli niteliklere ve / veya en az önem taşıyan özelliklere göre daha küçük ağırlıklara (veya tamamen kaldırmaya) ağırlık verebilirler.
Bu nedenle, tüm seti gerçekten temsil eden bir eğitim veri seti ve bir test veri seti hazırlamanız gerekir. Bunu yapmanın bir yolu, tüm veri kümesinin rasgele bir seçiminden eğitim seti oluşturmaktır.Ayrıca, aynı örneğe bakabilmeniz için bu testi tekrarlanabilir hale getirmek istiyorsunuz.
Böylece rastgele üreticinin tohumunu ayarlayın, böylece aynı "rastgele" eğitim setine sahip olacağız. Aşağıdaki kod bu görevi yapar: >> set. trainSet testSet <- autos [-training_indices,]
Eğitim seti, 279 gözlemin yanı sıra sonuç (299 gözlem) içermektedir (mpg). Regresyon algoritması, tahmin değişkenleri (yedi özellikten herhangi biri) ve tepki değişkeni (mpg) arasındaki ilişkilere bakarak modeli eğitmek için sonucu kullanır.
Test seti, verilerin geri kalanını (yani eğitim setine dahil edilmeyen kısmı) içerir. Test setinin yanıt (mpg) değişkenini de içerdiğini fark etmeniz gerekir.
Test grubuyla birlikte tahmin fonksiyonunu (modelden) kullandığınızda, yanıt değişkenini yok sayar ve yalnızca kolon adları eğitim setindeki ile aynı olduğu sürece tahmini değişkenleri kullanır.Yanıt değişkeni olarak mpg özniteliğini ve tahmini değişkenleri olarak diğer tüm değişkenleri kullanan doğrusal bir regresyon modeli oluşturmak için aşağıdaki kod satırını yazın: >> model