İçindekiler:
Video: Matrix AI Network Turkey 2024
Veri madenciliği yaptığınızda, bazen belirli bir projeye gereksinim duyduğunuzdan daha fazla veriye sahip olursunuz. İhtiyacınız olanı bulmaya nasıl başlayabilirsiniz.
Alanların daraltılması
Bir veri kümesinde birçok değişken varsa, ilginizi çekenleri bulmak ya da görmek zor olabilir. Veri setiniz büyükse ve tüm değişkenlere ihtiyacınız yoksa, ekstraları tutmak gereksiz yere kaynakları soaktır. Bazen bazı değişkenleri saklamanız ve başkalarını bırakmanız gerekiyor. Şekil, doğru aracın Sütun Filtresi olarak adlandırıldığı KNIME'deki bir örneği göstermektedir.
Bu araç için örnek bir kurulum aşağıdaki resimde gösterilmektedir.
Alanları daraltmak için veri madenciliği uygulamasında bir değişken seçim aracı arayın; bunlar veri manipülasyonu için başka araçlar ile bulunur. Diğer veri madenciliği araçlarında olduğu gibi, adlar ürüne göre değişir. sütununda, değişken, veya alan, ve seçim veya filtreleme kelimeleri üzerinde varyasyon arayın.
İlgili durumlarda seçme
Model oluşturulmadan önce eksik veriler içeren durumlar filtrelenebilir. Eksik kutuları kaldırmak, veri seçiminde veya filtrelemeye ilişkin yaygın bir örnektir.
Ancak, sizi ilgilendiren her bir bölüm için yalnızca ilgili davaları nasıl seçerdiniz? Bir veri seçme aracı kullanırsınız.
Aşağıdaki resim, başka bir veri madenciliği uygulamasındaki bir veri seçme aracını göstermektedir.
Bir sonraki şekil, bu aracı bir değişkenin değerine dayalı başka bir seçim türü için nasıl kuracağınızı gösterir.
Bu tür bir veri seçimi yapmak genel bir uygulamadır ve bazı uygulamalar tam olarak istediğiniz kutuları tanımlamanıza yardımcı olmak için her tür yerleşik işlevler sunar. Bu cihazın bazı olağanüstü özellikleri var; değişken için özet istatistiklerini görüntüler ve seçim kıstaslarını kaç tane davanın karşıladığını söyler.
Çoğu veri madenciliği uygulaması yalnızca ihtiyacınız olanları seçmek için araçlar içerir. menülerine bakın (veya arayın) veya filtre seçin.
Örnekleme
Bugünlerde popüler bir düşünce, daha çok verinin daha iyi veridir olmasıdır. Bu yeni bir fikir değil. Veri madenciliği uygulamaları her zaman büyük miktarda veri ile çalışmak için geliştirilmiştir. Hatta "veri madenciliği" adı büyük miktarlarda öneriyor. Ancak çoğu kez, verilerinizin bir örneğiyle çalışmak, size faydalı bilgiler verir, çalışmalarınızı kolaylaştırır ve zaman ve kaynaklarınızdan tasarruf sağlar.
Örnekleme, veri madenciliğinde önemli rol oynamaktadır. Veriler dengelenirse, bir grupta birden fazla vaka bulunmasına rağmen, modelin karşılaştırıldığı grupların her birinde eşit sayıdaki vaka sayısı kullanıldığı (bu örnekte, gruplar el değiştiren ve özellik olmayan özelliklerdi) anlamına gelirse, diğer orijinal verilerde.
Daha sonra, veriler, bir modeli eğitmek için ve bir diğerini test etmek için kullanmak üzere bir alt küme halinde ayrıldı. Paralel koordinatlardaki yalnızca bir örnek veriyi kullanmak, görüntülemeyi ve yorumlamayı kolaylaştırabilir. (Binlerce noktalı dağınık çizgiler okumak zor olabilir!) Belki de en önemlisi, örnekleme, veri miktarını azaltarak işlerin daha hızlı koşmasını sağlar.