Ev Kişisel Finans Data Science: Faktör ve Temel Bileşen Analizi için Python Kullanımı - mankenler

Data Science: Faktör ve Temel Bileşen Analizi için Python Kullanımı - mankenler

İçindekiler:

Video: Principal Components Analysis - SPSS (part 1) 2025

Video: Principal Components Analysis - SPSS (part 1) 2025
Anonim

Veri bilimcileri, faktör ve ana bileşen analizi yapmak için Python kullanabilirler. SVD, doğrudan verilerin sayısal değerleriyle çalışır; ancak, verileri değişkenler arasındaki bir ilişki olarak da ifade edebilirsiniz. Her özelliğin belirli bir değişimi var. Değişkenliği ortalama etrafındaki varyans ölçüsü olarak hesaplayabilirsiniz. Varyans ne kadar fazla olursa, değişken o kadar fazla bilgiyi barındırır.

Buna ek olarak, değişkeni bir kümeye yerleştirirseniz, iki değişkenin varyansını karşılaştırarak, birbirleriyle benzer olup olmadıklarının bir ölçüsü olan ilişkili olup olmadığını belirleyebilirsiniz.

Bir değişkenin tüm olası korelasyonlarını kümedeki diğerleriyle ilişkilendirerek kontrol ederek, iki çeşit varyansın olabileceğini keşfedebilirsiniz:

  • Benzersiz varyans: Bazı varyans, muayene altındaki değişken. Başka bir değişkene ne olacağı ile ilişkilendirilemez.

  • Paylaşılan varyans: Bazı varyans, veride fazlalık yaratan bir veya daha fazla değişkenle paylaşılır. Fazlalık, aynı bilgiyi, biraz farklı değerlerle çeşitli özelliklerde ve birçok gözlemde bulabileceğinizi ima eder.

Elbette, bir sonraki adım paylaşılan varyansın nedenini belirlemektir. Böyle bir soruyu yanıtlamaya çalışmanın yanı sıra, benzersiz ve paylaşılan varyanslarla nasıl başa çıkılacağını belirlemek, faktör ve ana bileşen analizi oluşturulmasına yol açtı.

Psikometrik modeli

göz önüne alındığında, Pek çok makine öğrenme algoritması düşünülmeden çok önce, psikolojik ölçüm ile ilgili psikometri disiplini olan psikometri , boyutları etkili bir şekilde ölçmek için istatistiksel bir çözüm bulmaya çalıştı kişilik içinde. İnsanın diğer yönleriyle olduğu gibi insan kişiliği de doğrudan ölçülebilir değildir. Örneğin, bir kişinin içe dönük veya zeki olduğunu tam olarak ölçmek mümkün değildir. Anketler ve psikolojik testler sadece bu değerlere işaret ediyor.

Psikologlar SVD'yi biliyor ve bunu soruna uygulamaya çalışıyorlardı. Paylaşılan varyans dikkat çekti: Bazı değişkenler neredeyse aynı ise, aynı kök nedenine sahip olmaları gerektiğini düşünüyorlardı. Psikologlar bu görevi yerine getirmek için faktör analizi 'ı hazırladılar! SVD'yi doğrudan veriye uygulamak yerine, tüm bilgileri yoğunlaştırmak ve fa c tors adlı yeni yararlı özellikleri geri kazanmak umuduyla ortak varyansı izleyerek yeni oluşturulan bir matriste uyguladılar..

Gizli faktörleri mi arıyorsunuz?

Faktör analizinin nasıl kullanılacağını göstermenin iyi bir yolu Iris veri setiyle başlamaktır.

sklearn'dan. veri setleri, sklearn'dan load_iris'i içe aktarır. dekompozisyon ithalat FactorAnalysis iris = yük_iris () X, y = iris. veri, iris. hedef faktör = FactorAnalysis (n_components = 4, random_state = 101). fit (X)

Verileri yükledikten ve tüm tahmini özellikleri depoladıktan sonra, FactorAnalysis sınıfı dört faktörü aramak için bir istekle başlatılır. Veriler daha sonra monte edilir. Satırlara yerleştirilen yeni oluşturulan faktörler ile sütunlara yerleştirilen özgün özellikler arasındaki ilişkinin ölçümlerini içeren bir dizi döndüren components_ nitelikini gözlemleyerek sonuçları inceleyebilirsiniz.

Her faktörün ve özelliklerin kesiştiği noktada, pozitif bir sayı, ikisi arasında pozitif bir oran olduğuna işaret eder; Bunun yerine, negatif bir sayı ayrıldıklarını ve birinin tersini işaret etmektedir.

Verilerde kaç faktör bulunduğunu bilmek mümkün olmadığından n_ bileşenlerinin farklı değerlerini test etmeniz gerekir. Eğer algoritma varolandan daha fazla faktör için gerekliyse, components_ dizisinde düşük değerler içeren faktörler üretir.

pandaları pd print pd olarak içe aktarın. Sepet uzunluğu (cm) sepal genişliği (cm) yaprak boyu (cm) yaprak genişliği (cm) 0 0.707227 -0. 153147 1.653151 0.701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0,000000 0,000000 -0. 000000

Örneğin Iris veri kümesindeki testte, orijinal özelliklerle sadece iki faktörün önemli bir bağlantısı olan sonuç faktörleri en çok 2 olmalı, 4 olmamalıdır. Bu iki faktörü, projenizde yeni değişkenler olarak kullanabilirsiniz; çünkü bunlar, daha önce mevcut olan verilerin yalnızca ima ettiği görünmeyen ancak önemli bir özelliği yansıtmaktadır.

Bileşenlerin kullanılması, faktörler değil,

Bir SVD ortak varyansa başarılı bir şekilde uygulanabiliyorsa, neden tüm varyansa uygulayamayacağınızı merak edebilirsiniz. Hafifçe değiştirilmiş bir başlangıç ​​matrisi kullanarak, verideki tüm ilişkiler, SVD'nin yaptığı gibi, azaltılabilir ve sıkıştırılabilir.

Bu işleme SVD'ye oldukça benzer olan sonuçlara ana bileşen analizi (PCA) adı verilir. Yeni oluşturulan özelliklere bileşen adı verilir. Bileşenler, faktörlerin aksine, veri yapısının temel nedeni olarak tanımlanmaz, sadece yeniden yapılandırılmış verilerdir, dolayısıyla bunları seçilen değişkenlerin büyük, akıllı bir toplamı olarak görüntüleyebilirsiniz.

Veri bilimi uygulamaları için PCA ve SVD oldukça benzerdir. Bununla birlikte, PCA orijinal özelliklerin ölçeğinden etkilenmez (çünkü hepsi -1 ve +1 değerleri arasında bağlanan korelasyon önlemleri üzerinde çalışır) ve PCA, değişkenler arasındaki ilişkiyi yeniden yapılandırmaya odaklanır ve böylece SVD'den farklı sonuçlar verir.

Boyutsal önemi azaltmaya ulaşmak

Bir PCA elde etme prosedürü, faktör analizi ile oldukça benzerdir.Fark, ayıklanacak bileşen sayısını belirtmemenizdir. Her ayıklanan bileşenin bilgilendirici değerinin nicelleştirilmesini sağlayan explain_variance_ratio_ özniteliğini kontrol ettikten sonra kaç bileşenin tutacağına siz karar veriyorsunuz. Aşağıdaki örnek, bu görevi nasıl gerçekleştireceğinizi göstermektedir:

sklearn'tan. ayrışma ithalat PCA ithalat pandaları pd olarak pca = PCA (). fit (X) print 'Bileşene göre açıklanan varyans:% s'% pca. explain_variance_ratio_ baskı pd. DataFrame (pca. Components_, columns = iris. Feature_names) Bileşene göre açıklanan varyans: [0. Sepal uzunluk (cm) sepal genişliği (cm) yaprak boyu (cm) petal genişliği (cm) 0 0.361590 -0 92461621 0 05301557 0 01718514 0. 00518309]. 082269 0 856572 0 358844 1-0. 656540 -0. 729712 0 175767 0 074706 2 0. 580.997 -0. 596418 -0. 072524 -0. 549061 3 0.317255 -0. 324094 -0. 479719 0. 751121

Iris veri kümesinin bu ayrışmasında, explain_variance_ratio_ tarafından sağlanan vektör dizisi, bilgilerin çoğunun birinci bileşene (yüzde 92.5) konsantre olduğunu gösterir. Bu nedenle, tüm veri kümesini yalnızca iki bileşene indirgemek, orijinal veri kümesindeki gürültüyü ve gereksiz bilgileri azaltmak mümkündür.

Data Science: Faktör ve Temel Bileşen Analizi için Python Kullanımı - mankenler

Editörün Seçimi

Doktor Asistan Sınavı: Skleroderma - mankenler

Doktor Asistan Sınavı: Skleroderma - mankenler

Skleroderma, aynı zamanda ilerleyici sistemik skleroz (PSS) olarak da bilinir, otoimmün bir hastalıktır bağ dokularını etkiler, Doktor Asistan Sınavında (PANCE) kapsanacaktır. Akciğerler ve böbrekler de dahil olmak üzere çeşitli organlar da etkilenebilir, ancak cilt ağırlıklı olarak dahil edilir. Kolajen oluşması nedeniyle cilt aslında sıkılaşır. Skleroderma neden olabilir ...

Doktor Asistan Sınavı: Deri veya Saç Dökülmesi Tıbbi Durumlar - Hayvan Maskesi

Doktor Asistan Sınavı: Deri veya Saç Dökülmesi Tıbbi Durumlar - Hayvan Maskesi

Doktor Asistanlığı Sınavı için (PANCE) için, çok ciddi ve potansiyel olarak hayatı tehdit eden bazı maddeleri gözden geçirmeniz gerekecektir: dış tabakayı kaybedebileceğiniz cilt koşulları, derinin epidermisi. Dökülme hastalıkları, yanıklar ve çok fatal olmayan bir cilt rahatsızlığı, alopesi gözden geçirdiğinizden emin olun. Desquamating diseases Desquamation, Despamating diseases Dizinin kaybolması ya da dökülmesidir ...

Hekim Yardımcısı Sınav: Kişilik Bozuklukları - mankenleri

Hekim Yardımcısı Sınav: Kişilik Bozuklukları - mankenleri

Hekim Yardımcısı Sınav (Pance) tanıdık olmasını bekliyoruz olacak kişilik bozukluklarıyla birlikte. Bir kişilik bozukluğunun izlerinden biri, toplumsal normlardan çok farklı olan davranışlar veya düşünce süreçleridir. Kişi hayatta değil. Buna ek olarak, kişi davranışları uygunsuz görmemektedir. Nasıl teşhis ve ...

Editörün Seçimi

Neden Çevrimiçi Topluluk Yarışmasını Yavaş ve Kararlı Kazanır - canavarlar

Neden Çevrimiçi Topluluk Yarışmasını Yavaş ve Kararlı Kazanır - canavarlar

Çevrimiçi topluluklar belirlenmemiştir - Bu ve unutun, işler. En iyi senaryo, istikrarlı, organik büyüme sağlamak olsa da, gerçek şu ki, bir gecede olmaz. İlk bakışta hayal kırıklığına uğrayabilirsiniz, çünkü aynı anda yalnızca birkaç üyeniz var ve işvereniniz topluluğunuzun yeterince hızlı büyüdüğünü düşünmüyor olabilir, ancak gerçek şu ki ...

Blog Sitenizin Fontları Nerede Bulacaksınız - AYRINTILILAR

Blog Sitenizin Fontları Nerede Bulacaksınız - AYRINTILILAR

Web'de pek çok yeri bulmaya çalışıyor yazı tipleri, en iyi siteleri bulmak zor olabilir. Google Web Fontları'na ek olarak, aşağıdaki listeler, ücretsiz ya da ücret karşılığında yazı tiplerini aramak için en sevdiğim yerlerden bazılarına işaret ediyor. Yazı tipi bulma macerasına devam ederken, tanıdık olmanız gerekir ...

Editörün Seçimi

Photoshop CS6'daki Yeni Bulanıklaştırma Galerisi ile Nasıl Çalışılır - mankenler

Photoshop CS6'daki Yeni Bulanıklaştırma Galerisi ile Nasıl Çalışılır - mankenler

Photoshop CS6'daki üç yeni Blur filtresinden, seçeneklerinizi içeren Blur Tools ve Blur Effects gibi ilgili kontrol panellerine de erişeceksiniz. Her üç filtre de özel efektler oluşturmanızı sağlar. Alan Bulanıklığı: Resminiz üzerinde genel bir bulanıklık oluşturur. Ek kontrol noktaları veya pimler ekleyerek ...

Photoshop CS6'daki Özellikler Paneli ile Çalışma - mankenler

Photoshop CS6'daki Özellikler Paneli ile Çalışma - mankenler

Adobe, kısa ömürlü , şimdi Maskeler ve Ayarlar panellerinin özelliklerini içeren Özellikler paneli lehine Photoshop CS6'daki Bağımsız Maskeler panelinde. Ancak endişelenmeyin. Daha önce Maskeler paneli tarafından sağlanan özelliklerin hiçbiri kayboldu. Yeni Özellikler paneli, katmanını eklemenize, düzenlemenize ve yönetmenize olanak tanır ...

Photoshop CS6'da Ufuk Noktası ile Çalışma - mankenler

Photoshop CS6'da Ufuk Noktası ile Çalışma - mankenler

Photoshop CS6'daki Ufuk Noktası komutunu etkinleştirir perspektif uçaklarına sahip görüntülerde gerçekçi düzenlemeler yapmanız gerekir. Ufuk Noktası ile, resimlerinizdeki düzlemleri belirlediniz ve daha sonra çeşitli teknikler kullanarak bu düzlemler üzerinde nesneler ekleyip yok ettiniz. Düzenlenmesi gereken bir resmi açın. Yapıştırmanız gerekiyorsa ...