İçindekiler:
- Veri biliminde pratik yapmak için bir istatistik derecesine sahip olmana gerek yok, ancak en azından kullanılan daha temel yöntemlerden bazılarını bilmelisin. istatistiksel veri analizinde. Bunlar arasında:
- Makine öğrenme, ham veri kümelerinden öğrenmek (veya desen çıkarmak) için hesaplama algoritmalarının uygulanmasıdır.
- Veri bilimi uygulamalarında istatistiklerin değeri hakkında çok şey söylenir, ancak uygulanan matematiksel yöntemler nadiren belirtilir. Açıkçası, matematik, tüm niceliksel analizlerin temelini oluşturmaktadır. Önemi önemsenmemelidir. Aşağıdaki iki matematiksel yöntem, veri biliminde özellikle yararlıdır.
Video: Sınıflandırma Classification 1 (Veri Madenciliği Teorik 3) 2024
Aptallar için Veri Bilgisi Bölümü Cheat Sheet > İstatistikler, verilerin içgörüler elde etme bilimi olarak tanımlandıysa, istatistikçi ile veri bilimcisi arasındaki fark nedir? İyi soru! Veri bilimindeki pek çok görev, istatistiksel olarak bilinçli bir şekilde yapılmasını gerektirse de, bir veri bilimcisinin bilgi ve beceri tabanının kapsamı ve genişliği bir istatistikçiden farklıdır. Çekirdek ayrımlar aşağıda özetlenmiştir.
-
Veri bilimcilerinin temel özelliklerinden biri, analitik yöntemlerini uyguladıkları alanda karmaşık bir uzmanlık derecesi sunmasıdır. Veri bilimcileri, ürettikleri veri analizlerinin etkilerini ve uygulamalarını gerçekten anlayabilmeleri için buna ihtiyaç duyarlar. Bir veri bilimcisi, bulgularının önemini tanımlayabilmek ve analizde nasıl ilerleyeceğini bağımsız olarak seçebilmek için yeterli uzmanlığa sahip olmalıdır.
-
İstatistikçiler verilerden alınan bilgiler elde ederken çoğunlukla istatistiksel yöntem ve süreçlere güvenirler. Buna karşılık, veri bilimcileri, veri analizlerini elde etmek için çok çeşitli tekniklerden çekilmelidir. Bunlar istatistiksel yöntemleri içerir, ancak istatistiklere dayanmayan - matematik, kümeleme, sınıflandırma ve istatistiksel olmayan makine öğrenme yaklaşımları gibi - yaklaşımları da içerir. İstatistiksel bilgi birikiminin önemini görme
Veri biliminde pratik yapmak için bir istatistik derecesine sahip olmana gerek yok, ancak en azından kullanılan daha temel yöntemlerden bazılarını bilmelisin. istatistiksel veri analizinde. Bunlar arasında:
Doğrusal regresyon
-
: Doğrusal gerileme, bağımlı bir değişken ile bir veya birkaç bağımsız değişken arasındaki ilişkilerin modellenmesi için kullanışlıdır. Doğrusal gerilemenin amacı bağımlı ve bağımsız değişkenler arasındaki önemli korelasyonları keşfetmek (ve gücünü ölçmektir). Zaman serisi analizi:
-
Zaman serisi analizi, geçmişteki gözlemsel verilere dayanılarak önlemin ilerideki örneklerini öngörmek için zamanla öznitelik değerleri hakkındaki bir veri kümesini analiz etmeyi içerir. Monte Carlo simülasyonları:
-
Monte Carlo yöntemi, hipotezleri test etmek, parametre tahminleri oluşturmak, senaryo sonuçlarını tahmin etmek ve modelleri doğrulamak için kullanabileceğiniz bir simülasyon tekniğidir. Bu yöntem, değerlendirmeye çalıştığınız tüm işlemler için 1 ila 10, 000 (veya daha fazla) simülasyon örneğinin her yerinde çok hızlı bir şekilde simüle etmek için kullanılabildiğinden güçlüdür. Uzamsal veriler için istatistikler:
-
Uzamsal verilerin temel ve önemli bir özelliği, rasgele değil olmasıdır. Mekansal olarak bağımlı ve kendine özerk. Uzamsal verileri modellerken, verilerinizin rastgele olduğunu varsayan istatistiksel yöntemlerden kaçının. Kriging ve krige, mekansal verileri modellemek için kullanabileceğiniz iki istatistiksel yöntemdir. Bu yöntemler, coğrafi alanda bilinen noktaların kümelerine dayalı olarak tüm çalışma alanları için öngörülü yüzeyler üretmenizi sağlar. Kümeleme, sınıflandırma ve makine öğrenme yöntemleri ile çalışma
Makine öğrenme, ham veri kümelerinden öğrenmek (veya desen çıkarmak) için hesaplama algoritmalarının uygulanmasıdır.
Kümeleşme belirli bir makine öğrenme türüdür - denetlenmemiş makine öğrenme, tam olarak, algoritmaların etiketsiz veriden öğrenmesi gerektiğini ve dolayısıyla keşfetmek için çıkarsama yöntemlerini kullanmaları gerektiğini belirtmek korelasyonlar. Diğer taraftan Sınıflandırma, denetimli makine öğrenimi olarak adlandırılır, yani algoritmaların etiketli verilerden öğrenilmesi anlamına gelir. Aşağıdaki tanımlamalar, daha temel bazı kümeleme ve sınıflandırma yaklaşımlarını tanıtmaktadır: k-aracı kümeleme:
-
Genellikle, bir veri kümesinin veri noktalarını en yakın ortalama değerlere dayalı olarak kümelere alt bölümlere ayırmak için k-aracı algoritmaları kullanıyorsunuz. Veri noktalarınızın kümelere bölünmesini belirlemek için, her kümedeki noktalar arasındaki uzaklık en aza indirilirse, k-aracı kümeleme yöntemini kullanabilirsiniz. En yakın komşu algoritmaları:
-
En yakın komşu analizinin amacı, karşılaştırma esasında kullandığınız özniteliğe bağlı olarak uzaydaki en yakın noktayı veya en yakın sayısal değeri aramak ve bulmaktır. Çekirdek yoğunluk tahmini:
-
Verilerinizdeki kümeleri tanımlamanın alternatif bir yolu yoğunluk yumuşatma işlevi kullanmaktır. Çekirdek yoğunluk tahmini (KDE), veri kümesindeki her veri noktasında yoğunluğu belirlemek için kullanışlı bir ağırlıklandırma fonksiyonu olan çekirdeği yerleştirerek ve daha sonra toplamları için bir çekirdek yoğunluk tahmini oluşturmak için çekirdekleri toplamak suretiyle çalışır bölgesi. Karışıklıkta matematiksel yöntemlerin tutulması
Veri bilimi uygulamalarında istatistiklerin değeri hakkında çok şey söylenir, ancak uygulanan matematiksel yöntemler nadiren belirtilir. Açıkçası, matematik, tüm niceliksel analizlerin temelini oluşturmaktadır. Önemi önemsenmemelidir. Aşağıdaki iki matematiksel yöntem, veri biliminde özellikle yararlıdır.
Çok kriterli karar verme (MCDM):
-
MCDM, karar verirken eşzamanlı olarak değerlendirmeniz gereken birkaç kritere veya seçeneğe sahipken kullanabileceğiniz bir matematiksel karar modelleme yaklaşımıdır. Markov zincirleri
-
: Bir Markov zinciri, mevcut durum değişkenlerinin gelecekteki durumları nasıl etkileyeceğini modellemek için mevcut durumu temsil eden bir dizi rastgele oluşturulmuş değişkenleri zincirleyen matematiksel bir yöntemdir.