Video: Veri Sınıflandırma ve Güvenliği - Çözümpark 2024
Veri madenciliği, veri organizasyonu için çok sıkı gereksinimlere sahiptir. Karşılaşacak egzotik, karmaşık veya zor şartlar değildir, ancak bunlar sıkıdır. Şekilde, veri madenciliği yazılımında bir tablo olarak görülen bir veri örneği gösterilmektedir.
Her sıra gayrimenkulun bir parselini temsil eder. Gayrimenkullerin parselleri ile ilgili bilgiler sütunlarla düzenlenir. İlk sütunda vergi kimlik numarası (TAXKEY), ikinci sütunda bir ön değerlendirmeden (P_A_LAND) alınan arazinin değerlendirilmiş değeri bulunur.
Herhangi bir satırdaki her girdi, belli bir parsel alanıyla ilgilidir. Herhangi bir sütundaki her girdi aynı türde bilgidir. Stil ve okunabilirlikle ilgili nedenlerden dolayı satır veya sütun boş bırakılmaz. Bu veriler, gayrimenkul parselleri arasındaki farklılıkları araştırmak için düzenlenmiştir.
Eğer gayrimenkul yerine insanları araştırırsanız, her bir kişi verinin bir satırıyla temsil edilecek ve insanlarla ilgili tüm ayrıntılar sütunlar halinde düzenlenecektir. Göğüs röntgenlerini araştırırsanız, her göğüs röntgeni veride bir satırla gösterilir ve göğüs röntgenleri hakkındaki tüm ayrıntılar sütunlar halinde düzenlenir.
Veri analizi terminolojisinde, okuduğunuz şeyler - satırdaki şeyler - durumlarda veya kayıtları olarak adlandırılır. Ve sütunlardaki kendileriyle ilgili ayrıntılara değişkenler adı verilir. Ayrıca, özellikle veritabanları bağlamında alanlar, sütunlarını duyarsınız.
Yani, veri madenciliği, her vaka için tek bir sıra ve her değişken için tek bir sütun ile düzenlenmiş verileri gerektirir. Birçok veri kaynağı zaten bu şekilde organize edilmiştir. İstatistikçiler bu şekilde verileri alışkanlıkla organize eder. Veritabanı profesyonelleri, bu yaklaşımı çalışmalarının çoğunda kullanamazlar, ancak bir düz tablo dediğinizde neyi istediğinizi genellikle anlayacaklardır.
Veri yapısında ufak değişiklikler bulabilirsiniz. Bazı yazılım türleri, veri öncesi bir başlıkta, örneğin Turuncu ve Weka veri madenciliği uygulamaları ile ilişkili belirli özel formatlar gibi tanımlayıcı bilgileri kullanır. Bazı karmaşık analitik prosedürlerin ek veya biraz değişen gereklilikleri vardır (bunlar oldukça sıradışıdır). Ancak, verilerin özü sütunlardaki satırları ve değişkenleri içermektedir.