Video: VERİ MADENCİLİĞİ - Ünite7 Özet 2024
Hem kümeleme hem de sınıflandırma, iki veri noktası arasındaki benzerliği veya farkı hesaplamaya dayanmaktadır. Veri kümeniz yalnızca sayı alanları ve değerleri içeren sayısal ise ve n boyutlu bir arsa üzerinde tasvir edilebilirse, çok boyutlu ölçeğinizi ölçeklemek için kullanabileceğiniz çeşitli geometrik ölçümler vardır veri.
n-boyutlu çizim , n veri boyutlarının sayısını çizmek için kullanabileceğiniz çok boyutlu dağılım grafiği şemasıdır.
Veri noktaları arasındaki uzaklıkları hesaplamak için kullanılan bazı popüler geometrik metrikler Öklid, Manhattan veya Minkowski mesafe metriklerini içerir. Bu metrikler, noktalar arasındaki mesafelerin modellenmesi için yararlı olan sadece farklı geometrik fonksiyonlardır. Öklid metriği, Öklid uçağında çizilen noktalar arasındaki mesafenin bir ölçümüdür.
Manhattan metrik , uzaklıkların iki noktanın Kartezyen koordinatları arasındaki farkların mutlak değerinin toplamı olarak hesaplandığı noktalamalar arasındaki mesafenin bir ölçüsüdür. Minkowski mesafe metriği, Öklid ve Manhattan mesafe metriklerinin genelleştirilmesidir. Sıklıkla bu metrikler, birbirlerinin yerine kullanılabilir.
Verileriniz sayısal ancak doldurulamayan ise (noktalar yerine eğriler gibi), gerçek değerler yerine veri arasındaki farkları temel alan benzerlik puanları üretebilirsiniz verinin kendisi.
Son olarak, sayısal olmayan veriler için, iki veri noktasının ortak olan özellik sayısını karşılaştıran bir indeks olan Jaccard mesafe metriği gibi ölçümleri kullanabilirsiniz. Örneğin, Jaccard mesafesini göstermek için aşağıdaki iki metin dizesini düşünün: Saint Louis de Ha-ha, Quebec ve St-Louis de Ha! Ha!, QC.
Bu metin dizelerinin hangi özellikleri ortak? Aralarında hangi özellikler farklı? Jaccard metriği, metin dizeleri arasındaki benzerliği niceliksel olarak gösteren sayısal bir dizin değeri üretir.