Video: Merkezi Eğilim Ölçüleri ve Yayılım Ölçüleri | Kamp2019 2024
Büyük veri istatistikleriyle çalışırken, bir veri kümesinin merkezden birkaç farklı özet ölçüsü ile yayılmasını tanımlarsınız: varyans, standart sapma, çeyrekler, çeyrekler arası aralık (IQR).
Varyans, veri kümesinin unsurları ile ortalama arasındaki ortalama sapma sapmasıdır. Verilerin bir örneği için varyans şöyle hesaplanır:
Burada
-
x i örnekteki tek bir öğenin değeridir.
-
örneklem ortalamasıdır.
-
n örneklem boyutudur.
Standart sapma varyansın kareköküdür. Çoğu uygulama için, standart sapmanın, yayılma ölçütü olarak varyansa göre kullanımı daha uygundur. Çünkü varyans kare birimlerde ölçülürken standart sapma, veriyle aynı birimlerle ölçülür. Örneğin, fiyatlardan oluşan bir veri kümesinin varyansı kare, dolar cinsinden ölçülür ve standart sapma dolar cinsinden ölçülür. Standart sapma, bir veri kümesindeki yayılımın en yaygın olarak kullanılan ölçüsüdür.
Çeyrekler bir veri kümesini dört eşit parçaya böler. İlk quartile (Q 1 ) verileri gözlemlerin en düşük yüzde 25'ine ve en yüksek yüzde 75'e (gözlemlerin yüzde 25'i Q 1 < ve yüzde 75'i Q 1 'dan daha büyük). İkinci çeyrek (Q 2 ), verileri gözlemlerin en düşük yüzde 50'sine ve en yüksek yüzde 50'ye böler. Üçüncü çeyrek (Q 3 ) verileri gözlemlerin en düşük yüzde 75'ine ve en yüksek yüzde 25'ine böler. Çeyreklerarası Aralık (IQR), üçüncü ve ilk çeyrekler arasındaki farka eşit:
Bir veri kümesinin çeyreği en iyi
kutu arsa ile gösterilir. Aşağıdaki resimde, 2013 yılında ExxonMobil'e günlük getirilerin kutu grafiği gösterilmektedir. 2013'te ExxonMobil hisse senedine günlük getirilerin kutu şeması. Kutu grafiği, ExxonMobil getirileri için birkaç temel istatistik gösterir: > Minimum geri dönüş, grafiğin alt kısmında tek bir nokta olarak gösterilir (kutu çizimi,
çukurları'ı tek tek puan olarak gösterir). Q
1 kutunun alt kısmı olarak gösterilir; Q 2 kutunun ortasındaki katı siyah çizgidir ve Q 3 , kutu. Maksimum geri dönüş, çizimin üstünde tek bir nokta olarak gösterilir.