İçindekiler:
- Görev: Verileri seçme
- Görev: Veri temizleme
- Görev: Verileri yapılandırma
- Görev: Verilerin birleştirilmesi
- Görev: Biçimlendirme verileri
Video: Data Science for Business: Data Mining Process and CRISP DM 2024
Veri madencileri zamanlarının çoğunu Veri Madenciliği (CRISP-DM) işlem modeli için Çapraz Endüstri Standardı Süreci'nin üçüncü aşamasına geçirir: veri hazırlama. Veri madenciliği için kullanılan çoğu veri toplanmış ve başka amaçlar için korunmuştur ve modelleme için kullanılmaya hazır hale getirilmeden önce bazı ayrıntılara ihtiyaç duyulmaktadır.
Veri hazırlık aşamasında beş adet görev bulunur. Bunlar
-
Veri seçiliyor
-
Veri temizleme
-
Verilerin yapılandırılması
-
Verilerin birleştirilmesi
-
Verilerin biçimlendirilmesi
CRISP-DM adım adım kılavuz, veri kümelerini her biri için veri olarak belirtmemektedir Veri hazırlama görevleri, ancak bu veri kümeleri iyi var daha iyi var ve düzgünce arşivlenmiş ve belgelenmiş. Veri kümeleri görevlerle bire bir karşılık gelmez, ancak kullanılan verilere ilişkin bilgiler her bir teslim edilebilir rapora dahil edilmelidir.
Görev: Verileri seçme
Şimdi sahip olduğunuz verilerin hangi bölümünün veri madenciliği için kullanılacağına karar vereceksiniz.
Bu göreve verilen, içerme ve dışlanma mantığıdır. İçinde hangi verilerin daha fazla veri madenciliği çalışması için kullanılacağını ve kullanılamayacağını açıklayacaksınız.
Elde ettiğiniz verilerin her bir parçasını hedeflerinizle, veri kalitesiyle ve teknik sorunlarınızla (ör. Araçlarınızın yapabileceği alanların veya satırların sınırları gibi) esas alarak veya hariç tutmanın nedenlerini açıklayacaksınız tutamaç veya ihtiyaçlarınıza göre veri formatlarının uygunluğu.
Görev: Veri temizleme
Kullanmayı seçtiğiniz veriler mükemmel bir şekilde temizlenmeyebilir (hatasız). Belirli bir veri düzeltmesi yapmak, bazı durumlarda veya tek tek hücreler (veri öğeleri hariç) yapmak veya bazı verilerin varsayılan değerlerle veya daha karmaşık bir modelleme tekniği ile seçilen yerine koyarak bazı kaynakları değiştirerek belki de değişiklikleri yapacaksınız. Veri madenciliği çalışmalarınızın tamamı veya bir kısmı için yalnızca veri alt gruplarını kullanmayı seçebilirsiniz.
Bu görevi, verilerini temizlemek için kullanılan her kararı ve eylemi ayrıntılı olarak belgeleyen veri temizleme raporudur. Bu rapor, sürecin veri-anlama aşamasında doğrulama veri kalitesi görevinde tanımlanan her veri kalitesi problemini kapsamalı ve bunlara atıfta bulunmalıdır. Ayrıca, rapor veri temizleme sırasında yaptığınız seçeneklerin sonuçlarına olan potansiyel etkiyi de bildirmelidir.
Görev: Verileri yapılandırma
Bazı yeni alanlar türetmeniz gerekebilir (örneğin, teslim tarihini ve bir müşterinin siparişin verildiğini tarihi belirlemek için müşterinin siparişini ne kadar beklediğini hesaplamak için), toplama verilerini, aksi takdirde yeni bir veri formu oluşturabilir.
Bu görev için sunumlar iki raporu içerir:
-
Türetilmiş öznitelikler: Hangi yeni alanları (sütunları) oluşturduğunuzu, nasıl uyguladığınızı ve nedenini anlatan bir rapor.
-
Oluşturulan kayıtlar: Oluşturduğunuz yeni vakaların (satırların) hangisini oluşturduğunu, bunu nasıl yaptığınızı ve nedenini anlatan bir rapor.
Birleştirme veri ve biçim verileri görevleri işlemin bu evresinde son olarak listelenmiş olsa da, her zaman en son gelmezler ve yalnızca bir kez ortaya çıkmayabilirler. Veri hazırlığı aşamasının başlarında bir miktar birleştirme veya yeniden formatlama yapmanız gerekebilir.
Görev: Verilerin birleştirilmesi
Verileriniz şimdi birbirinden farklı birkaç veri kümesinde olabilir. Modelleme aşamasına hazırlanmak için bu farklı veri kümelerinin tümünü veya bir bölümünü birleştirmeniz gerekecek.
Bu göreve verilen sonuç birleştirilmiş verilerdir. (Birleştirmenin nasıl yapıldığını belgelemek de incinmez.)
Görev: Biçimlendirme verileri
Veriler genellikle modelleme için en uygun biçimlerden farklı biçimlerde gelir. (Biçim değişiklikleri genellikle araçlarınızın tasarımına dayanır.) Dolayısıyla şu anda bu biçimleri dönüştürün.
Bu göreve verilen, yeniden biçimlendirilmiş verilerinizdir. (Ve yaptığınız değişiklikleri açıklayan küçük bir rapor, eklemek için akıllıca bir şey olur.)
Modelleme için hazırlanmış bir veri seti ve veri setini açıklayan kapsamlı bir raporla veri madenciliği sürecinin veri hazırlama aşamasını bitirmelisiniz.