İçindekiler:
Video: Minitab - Video 9 - The Graphical Summary Report 2024
EDA ağırlıklı olarak grafik teknikleri. Bir veri kümesinin en önemli özelliklerini tanımlamak için grafik teknikleri kullanabilirsiniz. Daha yaygın olarak kullanılan grafik tekniklerinden bazıları:
-
Kutu grafikleri
-
Histogramlar
-
Normal olasılık grafikleri
-
Dağılım grafikleri
Kutu grafikleri
En önemlilerinden bazılarını göstermek için kutu grafikler kullanıyorsunuz aşağıdakine benzer bir veri kümesinin özellikleri:
-
Minimum değer
-
Maksimum değer
-
Çeyrekler
Çeyrekler bir veri kümesini dört eşit bölüme ayırır. İlk çeyrek (Q 1 ) aşağıdakilerin geçerli olacağı bir değerdir:
Bir veri kümesindeki gözlemlerin% 25'i ilk çeyrekten daha azdır.
Gözlemlerin yüzde 75'i ilk çeyrekten büyük.
İkinci kuartil (Q 2 ), bir veri kümesindeki gözlemlerin
% 50'sinin ikinci çeyrekten daha az olacağı bir değerdir.
Gözlemlerin yüzde 50'si ikinci çeyrekten daha büyük.
İkinci çeyrek, medyan olarak da bilinir.
Üçüncü çeyrek (Q 3 )
Bir veri kümesindeki gözlemlerin yüzde 75'i üçüncü çeyrekten daha azdır.
Gözlemlerin yüzde 25'i üçüncü çeyrekten fazladır.
Ayrıca aykırılıkları belirlemek için kutu parsellerini kullanabilirsiniz. Bunlar, veri kümesinin geri kalanından önemli ölçüde farklı değerlerdir. Aykırı değerler, geleneksel istatistiksel testler için sorunlara neden olabilir, bu nedenle, herhangi bir istatistiksel analiz yapmadan önce bunları belirlemek önemlidir.
Histogramlar
Bir veri kümesinin izlediği olasılık dağılımı hakkında fikir edinmek için histogram kullanıyorsunuz. Bir histogramla veri seti, her biri dikey bir çubukla temsil edilen bir dizi bireysel değerler veya değer aralıkları halinde düzenlenir. Çubuğun yüksekliği, bir değer veya değer aralığının ne sıklıkta ortaya çıktığını gösterir. Bir histogramla verilerin nasıl dağıtıldığını görmek kolaydır.
Dağılım grafikleri
Dağılım grafiği, iki değişkenin birbiriyle nasıl ilişkili olduğunu gösteren bir dizi nokta. Noktaların rastgele dağılımı, iki değişkenin ilgisiz olduğunu veya aralarındaki ilişkinin çok zayıf olduğunu gösterir. Noktalar düz bir çizgiyle yakından ilgiliyse, bu iki değişken arasındaki ilişkinin yaklaşık olarak doğrusal olduğunu gösterir.
Y = mX + b eşitliği ile tanımlanabiliyorsa, iki değişken doğrusal olarak ilişkilidir.
X bağımsız değişkentir ve Y bağımlı değişkentir. , X daki belirli bir değişikliğe bağlı olarak Y daki değişimi temsil eden eğimi, 'dır. X değerinin sıfıra eşit olması durumunda Y değerini gösteren kesişim noktası, 'dır.
Şekil, ilişkinin doğrusal olduğu görülen iki değişken arasındaki dağılım grafiğini göstermektedir.
Doğrusal bir ilişkinin dağılım grafiği.Saçılım tablosundaki noktalar neredeyse düz bir çizgi oluştururlar. Biraz sola eğilir ve biraz sağa eğilir, ancak kabaca düzdür. Bu, ilişkinin pozitif bir eğimle doğrusal olduğunu gösterir.
Aşağıdaki resim, Y değerinin X değerinden daha hızlı yükseldiği iki değişken arasındaki dağılım grafiğini göstermektedir.
Doğrusal olmayan bir ilişkinin dağılım grafiği.Eğriyi görüyor musun? Bu ilişki açıkça doğrusal değildir. Aslında bu, ikinci dereceden bir ilişki. İkinci dereceden bir ilişki, Y = aX 2 + b X + c biçimini alır.
Aşağıdaki resim X ve Y arasında herhangi bir ilişki bulunmayan dağılım grafiğini göstermektedir.
X ve Y. " " width = "535"> X veY. değişkenleri arasında hiçbir ilişki bulunmayan dağılım grafiği. Gösterilen dağılım çizimindeki değişkenler ilgisiz < ya da bağımsız; verilerinde herhangi bir model bulunmaması nedeniyle bunu görebilirsiniz.
İki değişken arasındaki ilişkiyi göstermenin yanı sıra, bir dağılım çizimi aynı zamanda aykırı değerlerin varlığını da gösterebilir. Aşağıdaki resimde, diğer gözlemlerden önemli ölçüde farklı olan bir gözlem içeren bir veri kümesi gösterilmektedir.
Bir aykırı değer bulunan dağılım çizelgesiBir dışsallık noktasının, bir hatanın sonucu olup olmadığını veya başka sorunların olup olmadığını belirlemek için daha da araştırılması gerekir. Olağandışılıkların veriden çıkartılması gerekebilir. Normal olasılık grafikleri
Normal olasılık grafikleri
, bir veri kümesinin elemanlarının normal dağılımı ne kadar yakından takip ettiğini görmek için kullanılır Normalite varsayımı şu şekildedir: Birçok disiplinde ortaktır.Örneğin, finans ve ekonomide genellikle r stoklara düşen miktarlar normal olarak dağıtılır. Normallik varsayımı çok uygundur ve birçok istatistiksel testler bu varsayıma dayanmaktadır.
normal olmayan veri kümesine normallik varsayılarak yapılan istatistiksel testler uygulanırsa son derece şüpheli sonuçlar alınırdı. Bu nedenle, bu istatistiksel testlerden herhangi birini yapmadan önce verilerin normal olarak dağıtılmış olup olmadığını belirlemek önemlidir.