Makine Öğrenimi İçin Vektörler arasındaki benzerliği ölçme - mankenler

Video: 11. Introduction to Machine Learning 2025

Her birini bir vektör olarak düşündüğünüz hesaplamaları kullanarak verilerinizdeki örnekleri kolayca karşılaştırabilirsiniz. Aşağıdaki bilgiler, öğrenme amaçları için vektörler arasındaki mesafenin hesaplanması gibi görevleri yerine getirmek için vektörler arasındaki benzerliğin nasıl ölçüleceğini açıklamaktadır.

Benzerliği anlama

Vektörel bir formda, örneklerdeki her değişkeni bir koordinat dizisi olarak görebilirsiniz; her biri farklı bir alan boyutundaki bir konumu işaret etmektedir. Bir vektör iki öğeye sahipse, yani yalnızca iki değişkene sahipse, onunla çalışmak, sadece bir öğenin konumunu, Doğu-Batı ekseni üzerindeki konum için ilk numarayı ve diğerini Kuzey- Güney ekseni.

Değerlerin örnekleri bir grafik üzerinde puan olarak çizilir.

Örneğin, parantezler arasındaki sayılar (1, 2) (3, 2) ve (3, 3) tüm puan örnekleri. Her örnek, x'in (yatay eksen) ve i'nin y (dikey eksende) için listenin ilk değerini kullanarak bir haritada kolaylıkla bulunup basılabilen sıralı bir değer listesi (bir takım olarak adlandırılır) 'dir. Sonuç dağınıklıktır.

Matris formundaki veri setiniz birçok sayısal özelliğe sahipse (sütunlar), ideal olarak sayıların veri alanı boyutlarını temsil eden satırlar (örnekler) her birini temsil eder matematiksel olarak bir vektör olan nokta. Vektörünüz ikiden fazla öğeye sahip olduğunda, görselleştirme zahmetli hale gelir; ünkü üçüncü boyutların temsil edilmesi kolay değildir (sonuçta üç boyutlu bir dünyada yaşarız).

Ancak, diğer boyutlar için boyut, şekil veya renk kullanarak gibi daha uygun boyutlarda boyutlar taşımaya çalışabilirsiniz. Açıkçası, bu kolay bir iş değildir ve genellikle sonuç sezgisel olmaktan uzaktır. Bununla birlikte, iki ile ik boyutları göz önüne alırken birçok grafiği sistematik olarak basarak, veri alanınızdaki noktaların nerede olacağı fikrini kavrayabilirsiniz. Bu tür arazilere dağılım çizgisi matrisleri denir.

Çok boyutluluk bakımından endişelenmeyin. Öğrendiğiniz kuralları iki veya üç boyutta birden çok boyuta genişletiyorsunuz, bu nedenle bir kural iki boyutlu bir alanda çalışıyorsa, birden çok alanda da çalışır. Dolayısıyla, tüm örnekler ilk önce iki boyutlu örneklere değinmektedir.

Öğrenme mesafelerinin hesaplanması

Bir algoritma, mesafe ölçümlerini kullanan sayıların vektörleri kullanarak öğrenebilir. Genellikle vektörleriniz tarafından ifade edilen alan, uzaklıkları belirli belirli koşullara uyan mesafeli bir metrik boyutudur:

Negatif mesafeler yok ve yalnızca başlangıç noktası ve bitiş noktası çakıştığında mesafeniz sıfır (" negatif olmayan" olarak adlandırılır)).
Mesafe, bir noktadan diğerine (ve bunun tersi de geçerlidir) (simetri olarak adlandırılır).
Bir başlangıç noktası ile sonuncu arasındaki mesafe, başlangıçtan üçüncü bir noktaya ve oradan da son bir mesafeye (üçgen eşitsizliği olarak adlandırılan) kadar olan mesafeden her zaman daha büyük veya daha kötüdür, - yani kısayollar yok demektir). Metrik alanı ölçen uzaklıklar Öklid mesafesi, Manhattan mesafesi ve Chebyshev mesafesidir. Bunlar, sayısal vektörlere uygulanabilen tüm mesafelerdir.

Öklid uzaklığı

En yaygın olanı, iki vektörün l2 normu olarak da tanımlanan Öklid mesafesidir (ll, l2 ve linfinity normlarının bu tartışmasını okuyun). bir iki boyutlu bir düzlemde, bir Öklid mesafe iki noktayı birleştiren düz bir çizgi olarak refigures ve iki vektörün elemanları arasındaki karesi fark toplamının kare kökü olarak hesaplayın. Önceki çizimde, noktalar (1, 2) ve (3, 3) arasındaki Öklid uzaklığı, R'de sqrt ((1-3) ^ 2 + (2-3) ^ 2) olarak hesaplanabilir; yaklaşık 2 236. mesafesi

Manhattan mesafe

faydalı başka bir ölçüsü (aynı zamanda iki vektörün l1 norm olarak tarif edilmiştir) Manhattan mesafedir. Manhattan mesafesini, vektörlerin elemanları arasındaki farkın mutlak değerini toplayarak hesaplarsınız. Euclidean mesafesi en kısa rota işaret ediyorsa, Manhattan uzaklığı, bir şehirde hareket eden bir taksi yönüne benzeyen en uzun rotayı işaretler. Örneğin, (1, 2) ve (3, 3) noktaları arasındaki Manhattan mesafesi abs (1-3) ve abs (2-3) arasındadır. (Bu mesafe, taksici veya şehir blok mesafesi olarak da bilinir.)

), 3.

Chebyshev mesafe

Chebyshev mesafe veya en metrik ile sonuçlanan vektörlerin elemanları arasında mutlak farkın maksimum alır. Bir kral depo lojistik, satranç oyununda hamle ya da nasıl temsil edebilir bir mesafe ölçüsüdür, üstten vinçle gerekli işlemler bir yerden bir yere bir sandık taşımak için.

Makine öğrenmede, Chebyshev mesafesi, göz önüne alınması gereken birçok boyuta sahip olduğunuzda ve çoğu ilgisiz veya gereksiz olduğunda (Chebyshev'de, mutlak farkları en büyük olanı seçerseniz) yararlı olabilir. Yukarıda kullanılan örnekte, mesafe sadece 2, (1-3) ile abs (2-3) arasındaki maksimum.