İçindekiler:
Video: Excel Kursu Eğitimi Videosu - Excel'de Tahmin ve Eğilim İşlevleri 2024
Tahmini analiz için modelin hedeflerini tanımladıktan sonra, bir sonraki adım modelinizi oluşturmak için kullanacağınız verileri belirlemek ve hazırlamaktır. Adımların genel sırası şuna benzer:
-
Veri kaynaklarınızı belirleyin.
Veriler farklı biçimlerde olabilir veya çeşitli yerlerde bulunabilir.
-
Bu verilere nasıl erişeceğinizi belirleyin.
Bazen üçüncü taraf verileri veya kuruluşunuzdaki farklı bir bölüme ait verileri satın almanız gerekebilir.
-
Hangi değişkenlerin analizinize dahil edileceğini düşünün.
Bir standart yaklaşım, geniş bir değişken yelpazesiyle başlamak ve model için öngörücü değerler sunmayan değişkenleri ortadan kaldırmaktır.
-
Türetilmiş değişkenlerin kullanılıp kullanılmayacağını belirleyin.
Pek çok durumda, türetilmiş bir değişken (hisse senedi fiyatlarını analiz etmek için kullanılan kazanç başına fiyat oranı gibi), ham değişkenden daha model üzerinde daha büyük bir doğrudan etkiye sahip olacaktır.
-
Hem durumunu hem de sınırlamalarını anlamaya çalışarak, verilerin kalitesini keşfedin.
Modelin tahminlerinin doğruluğu, seçtiğiniz değişkenler ve verilerinizin kalitesi ile doğrudan ilişkilidir. Bu noktada bazı veri sorularına cevap vermek istersiniz:
-
Veriler tamamlanmış mıdır?
-
Herhangi bir sapma değeri var mı?
-
Verilerin temizlenmesi gerekiyor mu?
-
Kayıp değerleri doldurup, olduğu gibi saklamanız mı, yoksa onları tamamen ortadan kaldırmanız mı gerekiyor?
-
Verilerinizi ve özelliklerini anlamak, modelinizi oluşturmak için en kullanışlı algoritmayı seçmenize yardımcı olabilir. Örneğin:
-
Zaman serisi verilerini analiz etmek için regresyon algoritmaları kullanılabilir.
-
Ayrık verilerin analizinde sınıflandırma algoritmaları kullanılabilir.
-
İlişkilendirme algoritmaları, ilişkili özniteliklere sahip veriler için kullanılabilir.
Modeli eğitmek ve test etmek için kullanılan veri seti, çözmeye çalıştığınız soruyu cevaplamak için ilgili işletme bilgilerini içermelidir. Hedefiniz (örneğin) hangi müşterinin kambiyo olasılığı olduğunu belirlemek ise, seçtiğiniz veri kümesi, geçmişte tükenmiş olan müşterilerle birlikte olmayan müşterilere ilişkin bilgileri içermelidir.
Verileri mayınlamak için oluşturulan ve altta yatan ilişkileri (örneğin, kümeleme algoritmaları ile oluşturulanlar) mantıklı kılan bazı modeller, belirli bir nihai sonuca sahip olmak zorunda değildir.
Modelinizi oluştururken veri ile uğraşırken iki sorun ortaya çıkıyor: yetersiz yerleştirme ve gereğinden fazla uyma.
Yetersiz Uygunluk altına sığmayan yapı modeliniz verilerinizdeki ilişkileri algılayamadığında.Bu, genellikle, gerekli değişkenlerin (tahmin gücü olan) analizinize dahil edilmediğinin bir göstergesidir. Örneğin, yalnızca borsa verilerinden (genel borsa fiyatlarının yükseldiği) gelen verileri içeren bir hisse senedi analizi, hisse senetlerinin genel performansında büyük düzeltmeler yapabilecek krizler veya kabarcıkları hesaba katmaz.
Boğa ve ayı piyasalarını kapsayan verileri içermez (genel hisse senedi fiyatları düştüğünde), modeli mümkün olan en iyi portföy seçimini üretmekten alıkoyar.
Aşırı uyumsuzluk
Aşırı uyumsuzluk , modelinizde tahmin gücü olmayan ancak yalnızca analiz ettiğiniz veri kümesine özgü veriler bulunur. Gürültüye - veri kümesindeki rastgele değişiklikler - modelin yolunu bulabilir, böylece modelin farklı bir veri kümesiyle çalıştırılması modelin öngörülen performansı ve doğruluğu üzerinde önemli bir düşüş oluşturur. Eşlik eden kenar çubuğu bir örnek sağlar.
Modeliniz belirli bir veri kümesi üzerinde iyi performans gösteriyorsa ve yalnızca farklı bir veri kümesiyle test ettiğinizde daha düşük performans sergiliyorsa aşırı uygun olduğundan şüphelenin.