Ev Kişisel Finans Data Science: Faktör ve Temel Bileşen Analizi için Python Kullanımı - mankenler

Data Science: Faktör ve Temel Bileşen Analizi için Python Kullanımı - mankenler

İçindekiler:

Video: Principal Components Analysis - SPSS (part 1) 2024

Video: Principal Components Analysis - SPSS (part 1) 2024
Anonim

Veri bilimcileri, faktör ve ana bileşen analizi yapmak için Python kullanabilirler. SVD, doğrudan verilerin sayısal değerleriyle çalışır; ancak, verileri değişkenler arasındaki bir ilişki olarak da ifade edebilirsiniz. Her özelliğin belirli bir değişimi var. Değişkenliği ortalama etrafındaki varyans ölçüsü olarak hesaplayabilirsiniz. Varyans ne kadar fazla olursa, değişken o kadar fazla bilgiyi barındırır.

Buna ek olarak, değişkeni bir kümeye yerleştirirseniz, iki değişkenin varyansını karşılaştırarak, birbirleriyle benzer olup olmadıklarının bir ölçüsü olan ilişkili olup olmadığını belirleyebilirsiniz.

Bir değişkenin tüm olası korelasyonlarını kümedeki diğerleriyle ilişkilendirerek kontrol ederek, iki çeşit varyansın olabileceğini keşfedebilirsiniz:

  • Benzersiz varyans: Bazı varyans, muayene altındaki değişken. Başka bir değişkene ne olacağı ile ilişkilendirilemez.

  • Paylaşılan varyans: Bazı varyans, veride fazlalık yaratan bir veya daha fazla değişkenle paylaşılır. Fazlalık, aynı bilgiyi, biraz farklı değerlerle çeşitli özelliklerde ve birçok gözlemde bulabileceğinizi ima eder.

Elbette, bir sonraki adım paylaşılan varyansın nedenini belirlemektir. Böyle bir soruyu yanıtlamaya çalışmanın yanı sıra, benzersiz ve paylaşılan varyanslarla nasıl başa çıkılacağını belirlemek, faktör ve ana bileşen analizi oluşturulmasına yol açtı.

Psikometrik modeli

göz önüne alındığında, Pek çok makine öğrenme algoritması düşünülmeden çok önce, psikolojik ölçüm ile ilgili psikometri disiplini olan psikometri , boyutları etkili bir şekilde ölçmek için istatistiksel bir çözüm bulmaya çalıştı kişilik içinde. İnsanın diğer yönleriyle olduğu gibi insan kişiliği de doğrudan ölçülebilir değildir. Örneğin, bir kişinin içe dönük veya zeki olduğunu tam olarak ölçmek mümkün değildir. Anketler ve psikolojik testler sadece bu değerlere işaret ediyor.

Psikologlar SVD'yi biliyor ve bunu soruna uygulamaya çalışıyorlardı. Paylaşılan varyans dikkat çekti: Bazı değişkenler neredeyse aynı ise, aynı kök nedenine sahip olmaları gerektiğini düşünüyorlardı. Psikologlar bu görevi yerine getirmek için faktör analizi 'ı hazırladılar! SVD'yi doğrudan veriye uygulamak yerine, tüm bilgileri yoğunlaştırmak ve fa c tors adlı yeni yararlı özellikleri geri kazanmak umuduyla ortak varyansı izleyerek yeni oluşturulan bir matriste uyguladılar..

Gizli faktörleri mi arıyorsunuz?

Faktör analizinin nasıl kullanılacağını göstermenin iyi bir yolu Iris veri setiyle başlamaktır.

sklearn'dan. veri setleri, sklearn'dan load_iris'i içe aktarır. dekompozisyon ithalat FactorAnalysis iris = yük_iris () X, y = iris. veri, iris. hedef faktör = FactorAnalysis (n_components = 4, random_state = 101). fit (X)

Verileri yükledikten ve tüm tahmini özellikleri depoladıktan sonra, FactorAnalysis sınıfı dört faktörü aramak için bir istekle başlatılır. Veriler daha sonra monte edilir. Satırlara yerleştirilen yeni oluşturulan faktörler ile sütunlara yerleştirilen özgün özellikler arasındaki ilişkinin ölçümlerini içeren bir dizi döndüren components_ nitelikini gözlemleyerek sonuçları inceleyebilirsiniz.

Her faktörün ve özelliklerin kesiştiği noktada, pozitif bir sayı, ikisi arasında pozitif bir oran olduğuna işaret eder; Bunun yerine, negatif bir sayı ayrıldıklarını ve birinin tersini işaret etmektedir.

Verilerde kaç faktör bulunduğunu bilmek mümkün olmadığından n_ bileşenlerinin farklı değerlerini test etmeniz gerekir. Eğer algoritma varolandan daha fazla faktör için gerekliyse, components_ dizisinde düşük değerler içeren faktörler üretir.

pandaları pd print pd olarak içe aktarın. Sepet uzunluğu (cm) sepal genişliği (cm) yaprak boyu (cm) yaprak genişliği (cm) 0 0.707227 -0. 153147 1.653151 0.701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0,000000 0,000000 -0. 000000

Örneğin Iris veri kümesindeki testte, orijinal özelliklerle sadece iki faktörün önemli bir bağlantısı olan sonuç faktörleri en çok 2 olmalı, 4 olmamalıdır. Bu iki faktörü, projenizde yeni değişkenler olarak kullanabilirsiniz; çünkü bunlar, daha önce mevcut olan verilerin yalnızca ima ettiği görünmeyen ancak önemli bir özelliği yansıtmaktadır.

Bileşenlerin kullanılması, faktörler değil,

Bir SVD ortak varyansa başarılı bir şekilde uygulanabiliyorsa, neden tüm varyansa uygulayamayacağınızı merak edebilirsiniz. Hafifçe değiştirilmiş bir başlangıç ​​matrisi kullanarak, verideki tüm ilişkiler, SVD'nin yaptığı gibi, azaltılabilir ve sıkıştırılabilir.

Bu işleme SVD'ye oldukça benzer olan sonuçlara ana bileşen analizi (PCA) adı verilir. Yeni oluşturulan özelliklere bileşen adı verilir. Bileşenler, faktörlerin aksine, veri yapısının temel nedeni olarak tanımlanmaz, sadece yeniden yapılandırılmış verilerdir, dolayısıyla bunları seçilen değişkenlerin büyük, akıllı bir toplamı olarak görüntüleyebilirsiniz.

Veri bilimi uygulamaları için PCA ve SVD oldukça benzerdir. Bununla birlikte, PCA orijinal özelliklerin ölçeğinden etkilenmez (çünkü hepsi -1 ve +1 değerleri arasında bağlanan korelasyon önlemleri üzerinde çalışır) ve PCA, değişkenler arasındaki ilişkiyi yeniden yapılandırmaya odaklanır ve böylece SVD'den farklı sonuçlar verir.

Boyutsal önemi azaltmaya ulaşmak

Bir PCA elde etme prosedürü, faktör analizi ile oldukça benzerdir.Fark, ayıklanacak bileşen sayısını belirtmemenizdir. Her ayıklanan bileşenin bilgilendirici değerinin nicelleştirilmesini sağlayan explain_variance_ratio_ özniteliğini kontrol ettikten sonra kaç bileşenin tutacağına siz karar veriyorsunuz. Aşağıdaki örnek, bu görevi nasıl gerçekleştireceğinizi göstermektedir:

sklearn'tan. ayrışma ithalat PCA ithalat pandaları pd olarak pca = PCA (). fit (X) print 'Bileşene göre açıklanan varyans:% s'% pca. explain_variance_ratio_ baskı pd. DataFrame (pca. Components_, columns = iris. Feature_names) Bileşene göre açıklanan varyans: [0. Sepal uzunluk (cm) sepal genişliği (cm) yaprak boyu (cm) petal genişliği (cm) 0 0.361590 -0 92461621 0 05301557 0 01718514 0. 00518309]. 082269 0 856572 0 358844 1-0. 656540 -0. 729712 0 175767 0 074706 2 0. 580.997 -0. 596418 -0. 072524 -0. 549061 3 0.317255 -0. 324094 -0. 479719 0. 751121

Iris veri kümesinin bu ayrışmasında, explain_variance_ratio_ tarafından sağlanan vektör dizisi, bilgilerin çoğunun birinci bileşene (yüzde 92.5) konsantre olduğunu gösterir. Bu nedenle, tüm veri kümesini yalnızca iki bileşene indirgemek, orijinal veri kümesindeki gürültüyü ve gereksiz bilgileri azaltmak mümkündür.

Data Science: Faktör ve Temel Bileşen Analizi için Python Kullanımı - mankenler

Editörün Seçimi

Dijital Fotoğrafınızda Odak Noktası Yaratın - mankenler

Dijital Fotoğrafınızda Odak Noktası Yaratın - mankenler

Fotoğraf bir sanat biçimidir. İyi fotoğrafçılar, insanların bakmak isteyeceği çekici bir fotoğraf oluşturmak için kompozisyon kurallarını kullanırlar. Resminizi nasıl görselleştireceğinizi, çerçevede olanı düzenleyebileceğinizi ve ardından ilginç bir fotoğraf oluşturmak için kompozisyon kurallarını nasıl kullanacağınız. Doğal çerçeveleri kullanma Doğal çerçeveleri çizmek için kullanabilirsiniz ...

Dijital Fotoğraf Makinenizi Kullanarak Panoramik Resimler Oluşturma - mankenler

Dijital Fotoğraf Makinenizi Kullanarak Panoramik Resimler Oluşturma - mankenler

Dijital fotoğraf makineniz size yol göstermez panoramik bir fotoğraf çekmek için. Ancak, kesintisiz bir panoramik çekim oluşturmak için çakışan birkaç resim çekebilir ve onları birbirine dikebilirsiniz. Fotoğraf panoramasını oluşturmak için işinize bakalım:

Ham Dosyaları dönüştürme - mankenler

Ham Dosyaları dönüştürme - mankenler

Birçok dijital fotoğraf makinesi, görüntüleri Camera Raw dosya biçiminde veya sadece Ham olarak yakalayabilir. Bu format, JPEG formatında çekim yaparken oluşan olağan post-processing'leri uygulamadan herhangi bir görüntü sensöründen elde edilen ham görüntü verilerini depolar. Ham formatta çekim, bir takım avantajlar sunar. Fakat olumsuz ...

Editörün Seçimi

Ile iBS Dostu Tarçın Krepleri Ghee - dummies'le Domuz Dostu Tarçın Krep

Ile iBS Dostu Tarçın Krepleri Ghee - dummies'le Domuz Dostu Tarçın Krep

Sabahınıza enerji artışı sağlayan krep düşünün endişesizsiniz. Bu tarif, bir sabah herkesin sevebileceği bir Karbonhidrat Diyeti (SCD) versiyonudur.

IBS Sufferers için sardalya Yayılmış Tarif - mankenler

IBS Sufferers için sardalya Yayılmış Tarif - mankenler

Bu aperitif, pumpernickel ekmeği konusunda harika, fakat ayrıca buğdaydan kaçınırsanız, filizlenmiş ekmeği denemek istersiniz. Sardalya, iyi bir kalsiyum ve D vitamini kaynağı olduğu kadar, iltihap düzeylerini azaltmaya yardımcı olduğu bilinen omega-3 yağ asitleri. Kredi: © Digiphoto, 2006 Caroline Nation bunu geliştirdi ...

Editörün Seçimi

ASVAB: Kelime Bilgisi Alt Test Uygulaması - mankenler

ASVAB: Kelime Bilgisi Alt Test Uygulaması - mankenler

ASVAB'da göreceğiniz alt testlerden bir tanesi Kelime Bilgi testi. Test gününde soruların ve biçimin neye benzeyeceği hakkında bir fikir edinmek için aşağıdaki soruları inceleyin. Örnek sorular Kelime Bilgi Zamanı: 35 soru için 11 dakika Talimatlar: Kelime Bilgisi alt testi üçüncü alt testtir ...

ASVAB Paragraf Anlama Alt Sınavında Sözlük Sorularını Nasıl Yanıt Vereceksiniz - mankenler

ASVAB Paragraf Anlama Alt Sınavında Sözlük Sorularını Nasıl Yanıt Vereceksiniz - mankenler

Kelime Bilgisi ASVAB üzerinde alt test, bu tür soru, bir kelimeyi pasaj bağlamında kullanılan şekilde tanımlamanızı gerektirir. Sorunun doğru tanımı, sözcüğün en yaygın anlamı olabilir veya daha az bilinen bir anlam olabilir ...

Sorunlarını Nasıl Yanıtlayalım ASVAB - aumlalar

Sorunlarını Nasıl Yanıtlayalım ASVAB - aumlalar

Sayı problemleri ASVAB üzerinde bulacağınız sayı problemleri oldukça basittir. Sorular, sayıları temel ekleme, çıkarma, çarpma veya bölme ile değiştirmenizi ister. Çoğu kişi bu tür kelime problemlerini oldukça kolay buluyor. Birkaç tane denemek ister misiniz, sadece ayağınızı ıslatmak için mi? Elbette. Jesse ...