İçindekiler:
- Görev: Verileri toplama
- Görev: Verileri tanımlama
- Görev: Verileri araştırmak
- Görev: Veri kalitesinin doğrulanması
Video: Penjelasan CRISP DM dan RapidMiner (Evaluasi dan Proses Data Mining) 2024
Veri Madenciliği (CRISP-DM) İşlem Modelleri Arası Endüstri Standardı Süreci'nin ikinci aşamasında, veri elde etmiş ve doğrulamış olursunuz. İhtiyaçlarınız için uygundur. İş anlayışınıza dönmeniz ve planınızı revize etmeniz için gereken sorunları tanımlayabilirsiniz. Hedefleri ve planları yeniden düşünmek için bir başka sebep olan iş anlayışınızda kusurları bile keşfedebilirsiniz.
Veri anlama aşaması, dört görev içermektedir. Bunlar
-
Verileri toplama
-
Verileri tanımlama
-
Verileri araştırma
-
Veri kalitesini doğrulama
Görev: Verileri toplama
Sadece amaçları belirlediniz ve bir veri madenciliği planı tanımladınız.. Planın her adımı doğru verilere sahip olmaya bağlıdır. Gerçekten bu verilere sahip olduğunuzdan emin olun!
Bu görev için yalnızca bir teslimat var: ilk veri toplama raporu. Raporda, veriyi aldığınızı veya en azından verilere eriştiğinizi, veri erişim sürecini test ettiğinizi ve verilerin bulunduğunu doğrulamanız gerekir. Ayrıca, araçların verilerle uyumlu olduğunu doğrulamak için veri madenciliği için kullanacağınız tüm araçlara veri yüklemeniz gerekir.
Bu raporu yazabilmeniz için ihtiyacınız olan verileri bir araya getirmek için çok çalışabilirsiniz. Önce planınızı şu şekilde gerçekleştireceksiniz:
-
Anahat veri gereksinimleri: Veri madenciliği hedeflerine hitap etmek için gerekli veri türlerinin bir listesini oluşturun. İstenen zaman aralığı ve veri biçimleri gibi ayrıntılarla listeyi genişletin.
-
Veri kullanılabilirliğini doğrulayın: Gerekli verilerin bulunduğunu onaylayın ve kullanabildiğinizden emin olun. İstediğiniz bazı veriler kullanılamıyorsa, bu sorunu nasıl yöneteceğinize karar verin.
Alternatif bir veri kaynağıyla değiştirme
Projenin kapsamının daraltılması
Yeni verilerin toplanması
Seçim kriterlerini tanımlayın: Belirli veri kaynaklarını (veritabanları, dosyalar, dokümanlar vb.) kullanacaksınız. Bu kaynaklarda, bu proje ile alakalı tablo, alan ve vaka aralıklarını belirtin.
Bu adımları tamamladıktan sonra, aslında verileri almanız gerekir. Bu aşamada, verileri, bunu yapmak mümkün olduğunu doğrulamak için kullandığınız veri madenciliği platformuna aktarın ve işlemi anlayın. Bu deneme süresince,
-
Durum veya alanların sayısı üzerindeki sınırlar veya kullanabileceğiniz bellek miktarı
-
gibi beklenmedik yazılım (veya donanım) kısıtlamalarını keşfedebilirsiniz. kaynakların veri formatları
-
Verilerdeki kusurlarla uğraşma güçlüğü (örneğin, eksik veri kümelerini içe / dışa aktarmayan veya karşılaşmayan ürünlerle karşılaşabilirsiniz)
Son olarak, bir rapordaki toplama sürecini özetleyin.Rapor, gereksinimlerinizi tanımlamalı ve hangi verilerin toplanıp toplanmadığını ve hangi kaynaklardan olduğunu tam olarak ayrıntılı olarak açıklayabilmelidir. Burada, veriyi gerçekten elde ettiğinizi ve veri madenciliği platformunuzla uyumlu olduğunu onaylamış olursunuz. Zorluklar yaşadıysanız, ne olduklarını ve bunlara nasıl hitap ettiğinizi (alternatif kaynaklar kullanarak, planları gözden geçirerek, biçimleri değiştirerek) açıklayacaksınız.
Bu görevi sağlayan sonuç sadece basit bir rapordur, ancak rapor yazmadan önce yapmanız gereken iş basit olmayacaktır! Veri erişimi, veri madenciliği işleminin en zorlu ve sinir bozucu bölümlerinden biri olabilir, hem teknik hem de iş zorluklarıyla doludur.
Görev: Verileri tanımlama
Artık verileriniz var, sahip olduğunuz şeyle ilgili genel bir açıklama hazırlayın.
Bu göreve verilen veri açıklama raporudur. İçinde, verilerin kaynağını ve biçimlerini, davaların sayısını, alanların sayısını ve açıklamalarını ve önemli olabilecek diğer genel bilgileri açıklarsınız. Ayrıca, veri madenciliği hedefleriniz için verilerin uygunluğunun kısa bir değerlendirmesini yapmış olursunuz. Örneğin, verilerin beklediğiniz alanları içerdiğini ve orada olması gerektiği ve analiz için yeterli vaka bulunduğunu doğrulayın.
Görev: Verileri araştırmak
Bu görevde, verileri daha yakından incelersiniz. Her değişken için, değer aralıklarına ve dağılımlarına bakarsınız. Verilere daha fazla kontrol için basit veri manipülasyonu ve temel istatistiksel teknikler kullanacaksınız. Veri araştırması çeşitli amaçları desteklemektedir:
-
Verilere aşina olun.
-
Veri kalitesi sorunlarına ilişkin işaretler.
-
Veri hazırlama adımlarının aşamasını belirleyin.
Bu göreve verilen veri araştırması raporudur. Veri araştırması sırasında geliştirdiğiniz herhangi bir hipotezi veya ilk bulguları belgeleyen yer burasıdır. Bu rapor, veri açıklama raporundan daha ayrıntılı bir veri açıklaması içermelidir; dağıtımlar, özetler ve veri kalitesi sorunlarının herhangi bir işareti de dahil olmak üzere.
Görev: Veri kalitesinin doğrulanması
Verileriniz var ve onu incelediniz ve şimdi hedeflerinizi destekleyecek kadar iyi olup olmadığını belirlemelisiniz. Adresine getirmek için sıklıkla bir miktar kalite problemi yaşarsınız, ancak yine de ilerleyebiliyorsunuz, ancak bazen veri kalitesi öylesine zayıf ki planınızı destekleyemiyor ve alternatif aramaya ihtiyacınız olacak. En kötü veri problemlerinden bazıları şunları içerir:
-
İhtiyacınız olan veri mevcut değildir. (Hiç olmadı mı yoksa yok edildi mi? Bu veriler toplanıp gelecekte kullanılmak üzere kaydedilebilir mi?)
-
Var, ancak elde edemezsiniz. (Bu kısıtlama aşılabilir mi?)
-
Ciddi veri kalitesi sorunlarını (düzeltilemeyen birçok eksik veya yanlış değerler) bulabilirsiniz.
Bu göreve verilen malzeme veri kalitesi raporudur. Bu, sahip olduğunuz verileri, bulduğunuz küçük ve büyük kalite sorunlarını ve kalite sorunları veya alternatifleri için olası çözümleri (alternatif bir veri kaynağı kullanma gibi) özetler.Gerçekten ciddi bir veri kalitesi ile ilgili sorunlarla karşı karşıya kalırsanız ve yeterli bir çözüm bulamazsanız, hedefleri veya planları yeniden düşünmenizi önerirsiniz.