Video: SPSS Faktör Analizi Pratik Bilgiler, Açımlayıcı Faktör Analizi (1. Bölüm) 2024
Temel bileşen analizi (PCA), kehanet analizi ve veri biliminde yaygın olarak kullanılan değerli bir tekniktir. Bu veri kümesindeki en yüksek varyasyondan sorumlu en ilgili değişkenleri öğrenmek için bir veri kümesi üzerinde çalışmaktadır. PCA çoğunlukla bir veri azaltma tekniği olarak kullanılır.
Tahmini modeller oluştururken, veri setinizi tanımlayan özellik sayısını azaltmanız gerekebilir. Bu yüksek boyutlu verileri, PCA'nın üstün olduğu yaklaşım teknikleriyle azaltmak çok yararlıdır. Yaklaşık veriler orijinal verinin tüm önemli varyasyonlarını özetler.
Örneğin hisse senetleri ile ilgili verilerin özellik kümesinde hisse senedi fiyatları, günlük yüksekler ve alçaklar, işlem hacimleri, 200 günlük hareketli ortalamalar, kazanç için fiyat oranları ve diğer pazarlara göreceli güç sayılabilir, faiz oranları ve para birimlerinin gücü.
Tahmini bir model oluşturmanın temelinde, en önemli tahmini değişkenleri bulmaktır. Çoğu, bunu yapmanın yolunu kaba kuvvet yaklaşımı kullanarak yapıyor. Fikir, olabildiğince çok alakalı değişkenle başlamak ve etkileri olmayan veya öngörülen bir değeri olmayan özellikleri ortadan kaldırmak için dönüşüm hunisi yaklaşımını kullanmaktır.
İstihbarat ve içgörü, iş paylaşımcılarının ilgisini çekerek bu metoda getirilir, çünkü hangi değişkenlerin analizde en büyük etkiye sahip olacağı konusunda bazı öneme sahiptirler. Projede görev alan veri bilimcilerinin deneyimi, hangi değişkenlerin birlikte çalışacağını ve belirli bir veri türü veya alana özgü bir sorun için hangi algoritmaların kullanılacağını bilmek açısından önemlidir.
Süreçle yardımcı olmak için, veri bilimcileri, her değişkenin bu veri kümesindeki etkisini ölçmek için bir veri kümesindeki çoklu permütasyon ve analizleri çalıştırmayı daha kolay ve hızlı hale getirmeyi sağlayan birçok tahmini analitik araç kullanmaktadır.
Çalışmak için çok miktarda veri olduğunu bilerek, yardım için PCA'yı kullanabilirsiniz.
Baktığınız değişkenlerin sayısını azaltmak, PCA'yı kullanmanız için yeterli neden. Buna ek olarak, PCA'yı kullanarak kendinizi modele aşırı yüklemeye karşı korursunuz.
Kesinlikle, belirli bir ülkedeki hava durumu verileri ile hisse senedi piyasasının performansı arasında korelasyon bulabilirsiniz. Ya da bir kişinin ayakkabılarının rengiyle ve ofise hangi rolü alacağı ve portföyünün o günkü performansıyla. Bununla birlikte, tahmini bir modeldeki bu değişkenlerin dahil edilmesi, aşırı uyumsuz olmaktan öte fazla yanıltıcıdır ve yanlış tahminlere neden olur.
PCA, veri kümenizin alt yapısını belirlemek için en önemli özellikleri içeren matematiksel olarak geçerli bir yaklaşım kullanmaktadır; modelinizi bu daha küçük veri kümesinde oluştururken, birlikte çalıştığınız genel ve daha büyük veri kümesi için tahmini değeri olan bir modele sahip olursunuz. Kısaca, PCA, orijinal veri setinizle en fazla değişime neden olan değişkenlerin alt kümesini tanımlayarak değişkenlerinizi anlamanıza yardımcı olmalıdır. Fazlalık tespit etmenize yardımcı olur. İki (veya daha fazla değişken) aynı şeyi söylediklerini bulmanıza yardımcı olur.
Ayrıca ana bileşen analizi, çok boyutlu veri kümenizi alır ve değişkenleri, orijinal veri kümesindeki değişkenlerin doğrusallığını temsil eden yeni bir veri kümesi oluşturur. Buna ek olarak, çıkarılan veri kümesi bağımsız olarak ilişkisiz değişkenlere sahiptir ve varyansı, birincil bileşenin en büyük olduğu ana bileşenlerine göre sıralanır vb. Bu bağlamda PCA, özelliklerin oluşturulması için bir teknik olarak da düşünülebilir.
Karşılaştığınız veri kümesinin boyutsallığını azaltmaya yardımcı olan PCA veya benzeri teknikleri kullanırken, modelin performansını olumsuz etkilememek için daima dikkatli olmalısınız. Verilerin boyutunun düşürülmesi, performansı olumsuz etkileme pahasına gelmelidir (tahmini modelin doğruluğunu). Güvenli bir şekilde ilerleyin ve veri setinizi dikkatli bir şekilde yönetin.
Bir modelin artan karmaşıklığı, sonuçta daha yüksek kaliteye tercüme edilmez.
Modelin performansını korumak için, son modelin şekillendirilmesindeki kullanışlılığını ölçerek her değişkenin etkinliğini dikkatlice değerlendirmeniz gerekebilir.
Verilen bir veri kümesinde değişkenler yüksek oranda korelasyona sahip olduğunda PCA'nın özellikle yararlı olabileceğini bilerek, ilişkisiz tahmini değişkenler içeren bir veri kümesine sahip olmak yalnızca çok değişkenli verilerin boyutsallığını azaltma görevini zorlaştırabilir. PCA'ya ek olarak ileriye yönelik özellik seçimi ve geriye doğru özellik eleme gibi birçok başka teknik de kullanılabilir.
PCA, çok boyutlu verilerle ilgili tüm sorunları çözecek sihirli bir mermi değildir. Başarısı, birlikte çalıştığınız verilere oldukça bağımlıdır. İstatistiksel varyans, bu tahminlerle çalışmanın güvenli olmasına rağmen, en tahmin edici değerlere sahip değişkenlerle aynı hizaya gelmeyebilir.