Data Science: Faktör ve Temel Bileşen Analizi için Python Kullanımı - mankenler

Veri bilimcileri, faktör ve ana bileşen analizi yapmak için Python kullanabilirler. SVD, doğrudan verilerin sayısal değerleriyle çalışır; ancak, verileri değişkenler arasındaki bir ilişki olarak da ifade edebilirsiniz. Her özelliğin belirli bir değişimi var. Değişkenliği ortalama etrafındaki varyans ölçüsü olarak hesaplayabilirsiniz. Varyans ne kadar fazla olursa, değişken o kadar fazla bilgiyi barındırır.

Buna ek olarak, değişkeni bir kümeye yerleştirirseniz, iki değişkenin varyansını karşılaştırarak, birbirleriyle benzer olup olmadıklarının bir ölçüsü olan ilişkili olup olmadığını belirleyebilirsiniz.

Bir değişkenin tüm olası korelasyonlarını kümedeki diğerleriyle ilişkilendirerek kontrol ederek, iki çeşit varyansın olabileceğini keşfedebilirsiniz:

Benzersiz varyans: Bazı varyans, muayene altındaki değişken. Başka bir değişkene ne olacağı ile ilişkilendirilemez.
Paylaşılan varyans: Bazı varyans, veride fazlalık yaratan bir veya daha fazla değişkenle paylaşılır. Fazlalık, aynı bilgiyi, biraz farklı değerlerle çeşitli özelliklerde ve birçok gözlemde bulabileceğinizi ima eder.

Elbette, bir sonraki adım paylaşılan varyansın nedenini belirlemektir. Böyle bir soruyu yanıtlamaya çalışmanın yanı sıra, benzersiz ve paylaşılan varyanslarla nasıl başa çıkılacağını belirlemek, faktör ve ana bileşen analizi oluşturulmasına yol açtı.

Psikometrik modeli

göz önüne alındığında, Pek çok makine öğrenme algoritması düşünülmeden çok önce, psikolojik ölçüm ile ilgili psikometri disiplini olan psikometri , boyutları etkili bir şekilde ölçmek için istatistiksel bir çözüm bulmaya çalıştı kişilik içinde. İnsanın diğer yönleriyle olduğu gibi insan kişiliği de doğrudan ölçülebilir değildir. Örneğin, bir kişinin içe dönük veya zeki olduğunu tam olarak ölçmek mümkün değildir. Anketler ve psikolojik testler sadece bu değerlere işaret ediyor.

Psikologlar SVD'yi biliyor ve bunu soruna uygulamaya çalışıyorlardı. Paylaşılan varyans dikkat çekti: Bazı değişkenler neredeyse aynı ise, aynı kök nedenine sahip olmaları gerektiğini düşünüyorlardı. Psikologlar bu görevi yerine getirmek için faktör analizi 'ı hazırladılar! SVD'yi doğrudan veriye uygulamak yerine, tüm bilgileri yoğunlaştırmak ve fa c tors adlı yeni yararlı özellikleri geri kazanmak umuduyla ortak varyansı izleyerek yeni oluşturulan bir matriste uyguladılar..

Gizli faktörleri mi arıyorsunuz?

Faktör analizinin nasıl kullanılacağını göstermenin iyi bir yolu Iris veri setiyle başlamaktır.

sklearn'dan. veri setleri, sklearn'dan load_iris'i içe aktarır. dekompozisyon ithalat FactorAnalysis iris = yük_iris () X, y = iris. veri, iris. hedef faktör = FactorAnalysis (n_components = 4, random_state = 101). fit (X)

Verileri yükledikten ve tüm tahmini özellikleri depoladıktan sonra, FactorAnalysis sınıfı dört faktörü aramak için bir istekle başlatılır. Veriler daha sonra monte edilir. Satırlara yerleştirilen yeni oluşturulan faktörler ile sütunlara yerleştirilen özgün özellikler arasındaki ilişkinin ölçümlerini içeren bir dizi döndüren components_ nitelikini gözlemleyerek sonuçları inceleyebilirsiniz.

Her faktörün ve özelliklerin kesiştiği noktada, pozitif bir sayı, ikisi arasında pozitif bir oran olduğuna işaret eder; Bunun yerine, negatif bir sayı ayrıldıklarını ve birinin tersini işaret etmektedir.

Verilerde kaç faktör bulunduğunu bilmek mümkün olmadığından n_ bileşenlerinin farklı değerlerini test etmeniz gerekir. Eğer algoritma varolandan daha fazla faktör için gerekliyse, components_ dizisinde düşük değerler içeren faktörler üretir.

pandaları pd print pd olarak içe aktarın. Sepet uzunluğu (cm) sepal genişliği (cm) yaprak boyu (cm) yaprak genişliği (cm) 0 0.707227 -0. 153147 1.653151 0.701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0,000000 0,000000 -0. 000000

Örneğin Iris veri kümesindeki testte, orijinal özelliklerle sadece iki faktörün önemli bir bağlantısı olan sonuç faktörleri en çok 2 olmalı, 4 olmamalıdır. Bu iki faktörü, projenizde yeni değişkenler olarak kullanabilirsiniz; çünkü bunlar, daha önce mevcut olan verilerin yalnızca ima ettiği görünmeyen ancak önemli bir özelliği yansıtmaktadır.

Bileşenlerin kullanılması, faktörler değil,

Bir SVD ortak varyansa başarılı bir şekilde uygulanabiliyorsa, neden tüm varyansa uygulayamayacağınızı merak edebilirsiniz. Hafifçe değiştirilmiş bir başlangıç matrisi kullanarak, verideki tüm ilişkiler, SVD'nin yaptığı gibi, azaltılabilir ve sıkıştırılabilir.

Bu işleme SVD'ye oldukça benzer olan sonuçlara ana bileşen analizi (PCA) adı verilir. Yeni oluşturulan özelliklere bileşen adı verilir. Bileşenler, faktörlerin aksine, veri yapısının temel nedeni olarak tanımlanmaz, sadece yeniden yapılandırılmış verilerdir, dolayısıyla bunları seçilen değişkenlerin büyük, akıllı bir toplamı olarak görüntüleyebilirsiniz.

Veri bilimi uygulamaları için PCA ve SVD oldukça benzerdir. Bununla birlikte, PCA orijinal özelliklerin ölçeğinden etkilenmez (çünkü hepsi -1 ve +1 değerleri arasında bağlanan korelasyon önlemleri üzerinde çalışır) ve PCA, değişkenler arasındaki ilişkiyi yeniden yapılandırmaya odaklanır ve böylece SVD'den farklı sonuçlar verir.

Boyutsal önemi azaltmaya ulaşmak

Bir PCA elde etme prosedürü, faktör analizi ile oldukça benzerdir.Fark, ayıklanacak bileşen sayısını belirtmemenizdir. Her ayıklanan bileşenin bilgilendirici değerinin nicelleştirilmesini sağlayan explain_variance_ratio_ özniteliğini kontrol ettikten sonra kaç bileşenin tutacağına siz karar veriyorsunuz. Aşağıdaki örnek, bu görevi nasıl gerçekleştireceğinizi göstermektedir:

sklearn'tan. ayrışma ithalat PCA ithalat pandaları pd olarak pca = PCA (). fit (X) print 'Bileşene göre açıklanan varyans:% s'% pca. explain_variance_ratio_ baskı pd. DataFrame (pca. Components_, columns = iris. Feature_names) Bileşene göre açıklanan varyans: [0. Sepal uzunluk (cm) sepal genişliği (cm) yaprak boyu (cm) petal genişliği (cm) 0 0.361590 -0 92461621 0 05301557 0 01718514 0. 00518309]. 082269 0 856572 0 358844 1-0. 656540 -0. 729712 0 175767 0 074706 2 0. 580.997 -0. 596418 -0. 072524 -0. 549061 3 0.317255 -0. 324094 -0. 479719 0. 751121

Iris veri kümesinin bu ayrışmasında, explain_variance_ratio_ tarafından sağlanan vektör dizisi, bilgilerin çoğunun birinci bileşene (yüzde 92.5) konsantre olduğunu gösterir. Bu nedenle, tüm veri kümesini yalnızca iki bileşene indirgemek, orijinal veri kümesindeki gürültüyü ve gereksiz bilgileri azaltmak mümkündür.