İçindekiler:
- Görev: Modelleme tekniklerinin seçilmesi
- Görev: Testlerin Tasarımı
- Görev: Model (ler) oluşturma
- Görev: Modellerin ve Modellerin Değerlendirilmesi
Video: Data Science for Business: Data Mining Process and CRISP DM 2024
Modelleme, Veri Madenciliği (CRISP-DM) için Çapraz Endüstri Standardı Süreci sürecinin bir parçası olup, çoğu veri madenciler en çok hoşlanıyorlar. Verileriniz zaten iyi durumda ve artık verilerinizde yararlı kalıpları arayabilirsiniz.
Modelleme aşaması dört görev içerir. Bunlar
-
Modelleme tekniklerinin seçilmesi
-
Tasarım testleri
-
Model (ler) in oluşturulması
-
Modellerin değerlendirilmesi
Görev: Modelleme tekniklerinin seçilmesi
Veri madenciliğinin mükemmel dünyasında modelleme teknikleri sunuluyor ancak hepsi sizin ihtiyaçlarınıza uymayacaktır. İlgili değişken türlerine, araçlarınızdaki tekniklerin seçimine ve sizin için önemli olan iş konularına dayanarak listeyi daraltın.
Örneğin, birçok kuruluş, çıktıları kolay yorumlanabilen yöntemleri tercih eder, bu nedenle karar ağaçları veya lojistik regresyon kabul edilebilir ancak sinir ağları muhtemelen kabul edilmeyecektir.
Bu görev için sunumlar iki rapor içerir:
-
Modelleme tekniği: Kullanacağınız tekniği belirtin.
-
Modelleme varsayımları: Birçok modelleme tekniği bazı varsayımlara dayanmaktadır. Örneğin, bir model türü belirli bir dağıtım türüne sahip verilerle kullanılmak üzere tasarlanabilir. Bu varsayımları bu raporda belgeleyin.
İstatistikçiler varsayımlarla ilgili iyi bilgilendirilmiş, katı ve telaşlı. Veri madencileri için bu doğru olmayabilir ve bir veri madencisi olmak şart değildir. Derin istatistiksel bilgiye sahipseniz ve seçtiğiniz modellerin arkasındaki varsayımları anladıysanız, varsayımlar konusunda sıkı ve telaşlı olabilirsiniz.
Ancak birçok veri madencisi, özellikle de yeni başlayan veri madencileri, varsayımların çok üzerinde karışıklık duymazlar. Alternatif, modellerinizin - çok ve çok sayıda test - testidir.
Görev: Testlerin Tasarımı
Bu görevdeki test, modelinizin ne kadar iyi çalıştığını belirlemek için kullanacağınız testtir. Verilerinizi model eğitim için bir grup gruba, model testi için başka bir gruba ayırmak kadar basit olabilir.
Eğitim verileri, matematiksel formları veri modeline uydurmak için kullanılır ve test verileri, ek yüklemeden kaçınmak için model eğitim işlemi sırasında kullanılır: bir veri kümesi için mükemmel bir model yapmakta, ancak başka kimse yoktur. Ayrıca model egzersiz süreci sırasında kullanılmayan bekletme verileri, verilerini ilave bir test için de kullanabilirsiniz.
Bu göreve verilen sonuç, test tasarımınızdır. Ayrıntılı olması gerekmez, ancak en azından eğitim ve test verilerinizin birbirine benzediğinden ve verilere herhangi bir önyargı getirmekten kaçınmanız gerekir.
Görev: Model (ler) oluşturma
Modelleme, pek çok kişinin veri madenciliğinin tüm işi olduğunu düşünüyor ancak düzinelerce tek bir görev! Bununla birlikte, belirli iş hedeflerine hitap etmek için modelleme, veri madenciliği mesleğinin merkezidir.
Bu görev için teslimatlar üç öğe içerir:
-
Parametre ayarları: Model oluştururken çoğu araç size çeşitli ayarları ayarlama seçeneği sunar ve bu ayarlar, son modelin yapısını etkiler. Bu ayarları bir raporda belgeleyin.
-
Model açıklamaları: Modellerinizi tanımlayın. Model türünü (doğrusal regresyon veya sinir ağı gibi) ve kullanılan değişkenleri belirtin. Modelin nasıl yorumlandığını açıklayın. Modelleme sürecinde karşılaşılan zorlukları belgeleyin.
-
Modeller: Bu teslimatlar modellerin kendisidir. Bazı model türleri basit bir denklemle kolayca tanımlanabilir; diğerleri çok karmaşıktır ve daha sofistike bir biçimde aktarılmalıdır.
Görev: Modellerin ve Modellerin Değerlendirilmesi
Şimdi teknik açıdan ve iş açısından (çoğunlukla proje ekibinizdeki iş uzmanlarından gelen girdilerle birlikte) oluşturduğunuz modelleri inceleyeceksiniz.
Bu görev için sunumlar iki rapor içerir:
-
Model değerlendirmesi: Model incelemenizde geliştirilen bilgileri özetler. Birkaç model oluşturduysanız, bunları belirli bir uygulama için yaptıkları değerin değerlendirilmesine dayalı olarak derecelendirebilirsiniz.
-
Gözden geçirilmiş parametre ayarları: Modeli oluşturmak ve başka bir modelleme yuvarlaklığı yapmak için kullanılan ayarları ince ayar yapmayı ve sonuçlarınızı iyileştirmeyi seçebilirsiniz.
Veri madenciliği, soğan, Dobos tortu veya tortul kaya gibi birçok tabakaya sahiptir. Veri madenciliğine yeni başladığınızda, parametre ayarlarını varsayılan değerlerinden bırakarak başlayabilirsiniz (aslında, onları aramak için gayret göstermediğiniz sürece seçenekleri bile fark etmeyebilirsiniz).
Yeni veri madenciliği kariyeriniz için rahat ederseniz, model parametrelerini öğrenmeniz ve bunları nasıl kullanabileceğinizi bildiğiniz için mantıklı olacaktır. Seçenekleriniz, kullandığınız modelin türüne ve özel aracına göre değişiklik gösterecektir.