İçindekiler:
Video: DERS 5: SPSS TE BETİMSEL İSTATİSTİKLER ( FREKANS-YÜZDE-ORTALAMA-STANDART SAPMA) 2024
Modelin amaçlarını tanımladıktan sonra, tahmini analitikteki bir sonraki adım modelinizi oluşturmak için kullanacağınız verileri belirlemek ve hazırlamaktır. Aşağıdaki bilgiler en önemli faaliyetlere değinir. Adımların genel sırası şuna benzer:
- Veri kaynaklarınızı belirleyin.
Veriler farklı biçimlerde olabilir veya çeşitli yerlerde bulunabilir.
- Bu verilere nasıl erişeceğinizi belirleyin.
Bazen, üncü taraf verilerini veya kuruluşunuzdaki farklı bir bölüme ait veriyi edinmeniz gerekir.
- Analizinize hangi değişkenlerin dahil edileceğini düşünün.
Standart bir yaklaşım geniş bir değişken yelpazesiyle başlamak ve model için öngörücü bir değer sunmayan değişkenleri ortadan kaldırmaktır.
- Türetilmiş değişkenlerin kullanılıp kullanılmayacağını belirleyin.
Pek çok durumda, türetilmiş bir değişken (hisse senedi fiyatlarını analiz etmek için kullanılan kazanç başı fiyat oranı gibi), model üzerinde ham değişkenden daha büyük doğrudan etkiye sahip olacaktır.
- Hem durumunu hem de sınırlamalarını anlamaya çalışarak, verilerin kalitesini keşfedin.
Modelin tahminlerinin doğruluğu, seçtiğiniz değişkenler ve verilerinizin kalitesi ile doğrudan ilişkilidir. Bu noktada bazı veri sorularına cevap vermek istersiniz:
- Veriler tamamlanmış mı?
- Herhangi bir sapma değeri var mı?
- Verilerin temizlenmesi gerekiyor mu?
- Kayıp değerleri doldurup, bulundukları halde bırakıp yok etmeye mi yoksa onları tamamen yok etmeye mi ihtiyacınız var?
Verilerinizi ve özelliklerini anlamak, modelinizi oluşturmak için en kullanışlı algoritmayı seçmenize yardımcı olabilir. Örneğin:
- Zaman serisi verilerini analiz etmek için regresyon algoritmaları kullanılabilir.
- Ayrık verilerin analizinde sınıflandırma algoritmaları kullanılabilir.
- İlişkilendirme algoritmaları, ilişkili özniteliklere sahip veriler için kullanılabilir.
Bireysel algoritmalar ve tahmini teknikler farklı zayıf yönleri ve güçlü yönleri vardır. En önemlisi, modelin doğruluğu hem büyük miktarda hem de kaliteli veri sağlamaya dayanmaktadır. İstatistiksel olarak anlamlı sonuçlar sağlamak için verilerinizde yeterli sayıda kayıt olmalıdır.
İlgili verilerin (tercihen uzun bir zaman aralığında çok sayıda kayıt) toplanması, ön işleme tabi tutulması ve özelliklerin en tahminci değerleri ile çıkartılması, zamanınızın çoğunu harcadığınız yer olacaktır. Ancak algoritmayı akıllıca seçmek zorundasınız, iş problemine uygun bir algoritma.
Veri hazırlama üzerinde çalıştığınız projeye ve kullanmayı seçtiğiniz algoritmaya özgüdür.Projenin gereksinimlerine bağlı olarak, verilerinizi buna göre hazırlayacak ve iş ihtiyaçlarını karşılamak için modelinizi oluştururken algoritmaya yönlendireceksiniz.
Modeli eğitmek ve test etmek için kullanılan veri seti, çözmeye çalıştığınız soruyu cevaplamak için ilgili işletme bilgilerini içermelidir. Hedefiniz (örneğin) hangi müşterinin kambiyo olasılığı olduğunu belirlemek ise, seçtiğiniz veri kümesi, geçmişte tükenmiş olan müşterilerle birlikte olmayan müşterilere ilişkin bilgileri içermelidir.
Verileri mayınlamak için oluşturulan ve altta yatan ilişkileri (örneğin, kümeleme algoritmaları ile oluşturulanlar) mantıklı kılan bazı modeller, belirli bir nihai sonuca sahip olmak zorunda değildir.
Yetersiz Uygunluk altına sığmayan yapı modeliniz verilerinizdeki ilişkileri algılayamadığında. Bu, genellikle, gerekli değişkenlerin (tahmin gücü olan) analizinize dahil edilmediğinin bir göstergesidir.
Modelinizde kullanılan değişkenlerin öngörü gücü yüksek değilse, yeni alana özgü değişkenler eklemeyi deneyin ve modelinizi yeniden çalıştırın. Amaç, eğitim verilerindeki modelin performansını artırmaktır.
İzlemek gereken bir başka husus, mevsimsellik 'dır (mevsimsel modeliniz varsa, birden fazla mevsimi analiz etmede başarısız olursanız sorun yaşayabilirsiniz.) Örneğin, yalnızca bir boğanın verilerini içeren bir stok analizi piyasa (genel hisse senedi fiyatlarının yükseldiği yerlerde), stokların genel performansına büyük düzeltmeler getirebilecek krizler veya kabarcıklar için hesap vermez. Boğa ve ayı piyasalarına (genel hisse senedi fiyatları düştüğü zaman) ait verileri içermemek, modeli mümkün olan en iyi portföy seçimini üretmekten alıkoyar.
Aşırı uyumsuzluk
Aşırı uyumsuzluk, modelinizde tahmin gücü olmayan ancak yalnızca analiz ettiğiniz veri kümesine özgü veriler bulunur. Veri kümesindeki rastgele değişiklikler - Gürültülü -, modelin yolunu bulabilir; bu da, modelin farklı bir veri kümesi üzerinde çalıştırılmasının, modelin öngörülen performansı ve doğruluğu üzerinde önemli bir düşüş oluşturması demektir.