İçindekiler:
- Veri formatlarını kontrol edin
- Doğrulama veri türleri
- Verilerinizi grafiğe taşıın
- Veri doğruluğunu doğrulayın
- Çığırtkanların tanımlanması
- Eksik değerlerle uğraş
- Verilerin nasıl dağıtıldığı ile ilgili varsayımlarınızı kontrol edin
- Yaptığınız her şeyi yedekleyin ve belgeleyin
Video: ANDROİD VE İOS CİHAZLARDA UYGULAMA GİZLEME (ROOTSUZ) 2024
Bu günlerde istatistiksel yazılım paketleri son derece güçlü ancak kalitesiz verilerin üstesinden gelemiyorlar. Aşağıda, istatistiksel modeller oluşturmaya başlamadan önce yapmanız gereken şeylerin bir kontrol listesi bulunmaktadır.
Veri formatlarını kontrol edin
Analizleriniz her zaman ham veri dosyası ile başlar. Ham veri dosyaları birçok farklı şekil ve boyuta sahiptir. Ana çerçeve verileri PC verilerinden farklıdır, elektronik tablo verileri web verilerinden farklı biçimlendirilir vb. Ve büyük veri yaşta, mutlaka çeşitli kaynaklardan gelen verilerle karşı karşıya kalacaksınız. Verilerinizi analiz etmede ilk adımınız verilen dosyaları okuyabilmenizdir.
Gerçekten her alanın içeriğine bakmanız gerekiyor. Örneğin, bir alanın bir karakter alanı olarak listelendiği için gerçekte karakter verisi içerdiğine güvenmek akıllıca değildir.
Doğrulama veri türleri
Tüm veriler, hangi tür istatistikleri uygun şekilde uygulayacağınızı etkileyen dört kategoriden birine girer:
-
Nominal veriler aslında sadece bir ad veya tanımlayıcıdır.
-
Ordinal veriler, kayıtları en düşükten en yükseğe doğru sıralar.
-
Aralık verileri, aralarındaki farkların karşılaştırılabilir olduğu değerleri temsil eder.
-
Oran verisi aralık verisi gibidir, ancak 0 değerine de izin verir.
İstatistiksel yazılıma girmeden önce verilerinizin hangi kategorilerin içine girdiğini anlamak önemlidir. Aksi takdirde, makul görünüşte anlamsız görünen bir anlam ifade etmeme riskiyle karşı karşıyasınız.
Verilerinizi grafiğe taşıın
Verilerinizin nasıl dağıtıldığına dair bir fikir edinmek önemlidir. İstatistiksel işlemleri, yüzünüzü bulana kadar çalıştırın, ancak hiçbiri, verilerinizin neye benzediğini basit bir grafik olarak görüp anlayamaz.
Veri doğruluğunu doğrulayın
Verilerin istediğiniz şekilde biçimlendirildiğinden emin olduğunuzda, yine de doğru olduğundan ve mantıklı olduğundan emin olmalısınız. Bu adım, üzerinde çalıştığınız konu alanıyla ilgili biraz bilgi sahibi olmanızı gerektirir.
Verilerin doğruluğunu doğrulamak için gerçekten kesilmiş ve kurutulmuş bir yaklaşım yoktur. Temel fikir, verilerin göstermesi gerektiğini düşündüğünüz bazı özellikleri formüle etmek ve verileri test ederek bu özelliklerin devam edip etmediğini görmektir. Hisse senedi fiyatları her zaman pozitif midir? Tüm ürün kodları, geçerli olanlarla eşleşiyor mu? Aslında, verilerin gerçekten size söylenenlerden biri olup olmadığını anlamaya çalışıyorsunuz.
Çığırtkanların tanımlanması
Çığırtkanlıklar, verilerin geri kalanıyla birlikte patlama yaşayan veri noktalarıdır. Bunlar, veri kümesinin geri kalanına kıyasla çok büyük veya çok küçük değerlerdir.
Rakamlar istatistiksel ve istatistiksel prosedürleri ciddi şekilde tehlikeye atabildikleri için sorunludur. Tek bir outlier, ortalamanın değeri üzerinde büyük bir etkiye sahip olabilir. Ortalama, verilerin merkezini temsil etmesi gerektiği için, bir anlamda, bu bir aykırı, ortalamayı işe yaramaz hale getirir.
Dışarıda kalanlarla karşılaştıklarında, en yaygın strateji onları silmektir. Ancak bazı durumlarda, onları dikkate almak isteyebilirsiniz. Bu gibi durumlarda, genelde analizlerinizi iki kez yapmak isteriz - bir kez dışlanmış olanlar ve bir kez dışlayıcılar dışlanmışlar. Bu, hangi yöntemin daha yararlı sonuçlar verdiğini değerlendirmenizi sağlar.
Eksik değerlerle uğraş
Eksik değerler, karşılaşacağınız en yaygın (ve can sıkıcı) veri problemlerinden biridir. İlk itkiniz, analizinizden eksik değerler içeren kayıtları düşürmek olabilir. Bununla ilgili sorun, eksik değerlerin genellikle rasgele küçük veri hataları değil.
Verilerin nasıl dağıtıldığı ile ilgili varsayımlarınızı kontrol edin
Birçok istatistiksel prosedür, verilerin belirli bir şekilde dağıldığı varsayımına dayanır. Eğer bu varsayım geçerli değilse, tahminlerinizin doğruluğu sıkıntı çeker.
Bu kitapta tartışılan modelleme teknikleri için en yaygın varsayım, verilerin normal olarak dağıtıldığıdır.
Veya değil. Verilerin istediğiniz gibi dağıtıldığı durumlarda hepsinin kaybolması gerekmez. Dağıtımı, ihtiyacınız olan şekle dönüştürmek için verileri dönüştürmenin çeşitli yolları vardır.
İstatistiksel bir modelin doğruluğunu doğrulamanın en iyi yollarından biri, onu oluşturulduktan sonra verilere karşı test etmektir. Bunu yapmanın bir yolu, veri kümenizi rastgele iki dosyaya bölmektir. Bu dosyaları sırasıyla Analiz ve Test olarak adlandırabilirsiniz.
Verimliliği sağlamak için veriyi rasgele bölmelisiniz. Örneğin, veri kümesini üst yarısına ve alt yarısına basitçe ayıramazsınız. Neredeyse tüm veri dosyaları bir şekilde sıralanmış - tarihe göre başka bir şey yok. Bu, dosyanın farklı bölümlerini farklı istatistiksel özelliklere verecek sistematik desenler sunar. Dosyayı rastgele ayırdığınızda, her kaydın her iki dosyada da bulunma şansı eşit olur. Mecazi olarak, hangi dosyaya girdiğine karar vermek için her kayıt için bir para attırırsınız. Randomness, her iki dosyaya da orijinal verilerle aynı istatistiksel özellikleri verir.
Veri kümesini ayırdıktan sonra, Sınama dosyasını bir kenara koyun. Ardından, tahmini modeli Analiz dosyasını kullanarak oluşturmaya devam edin. Model oluşturulduktan sonra onu Test dosyasına uygulayın ve nasıl yaptığını görün.
Modelleri bu şekilde test etmek aşırı uyumluluk olarak bilinen bir fenomene karşı korunmaya yardımcı olur. Esasen, istatistiksel prosedürlerin değişkenler arasında anlamlı ilişkiler keşfetmek yerine veri dosyasını ezberlemesi mümkündür. Aşırı uyum sağlanırsa, model Test dosyasına göre oldukça kötü bir şekilde test edecektir.
Yaptığınız her şeyi yedekleyin ve belgeleyin
İstatistiksel yazılım kullanımı çok basitleştiğinden, veri dosyaları değil, raporlar ve grafikler üretmeye başlamak için bir parça kek.Bir düğmeye dokunarak işlemleri gerçek anlamıyla yapabilirsiniz. Birkaç dakika içinde farklı veri dönüşümlerine dayalı birkaç düzine grafik oluşturabilirsiniz. Bu, yaptığınız şeyin nedenini ve nedenini kaybetmenizi oldukça kolaylaştırır.
Neler yaptığınızı yazılı olarak kaydettiğinizden emin olmak önemlidir. Grafikler, onları oluşturmak için kullanılan verilerin adıyla (ve sürümü) etiketlenmelidir. Oluşturduğunuz istatistiksel prosedürlerin kaydedilmesi ve dokümante edilmesi gerekir.
Veri dosyalarınızı yedeklemek de önemlidir. Analizleriniz sırasında, verilerinizin çeşitli düzeltmelerini ve değişkenlerin dönüşümünü yansıtan birkaç sürümünü oluşturabilirsiniz. Bu sürümleri oluşturan prosedürleri kaydetmelisiniz. Ayrıca, yaptığınız dönüşümleri ve nedenini tarif edecek bir şekilde belgelendirilmelidirler.
Dokümanlar kimsenin en sevdiği görev değildir, ancak analiz projelerinizde hafızanızı kullanmamaya şiddetle özen gösterdiğimiz zaman deneyimle konuşuyoruz.
Az önce açıklanan adımları uygulayarak, istatistiksel modellerin güvenilirliğini en üst düzeye çıkarırsınız. Birçok durumda, hazırlık çalışması aslında gerçek modelden daha zaman alıcıdır. Ancak bu gerekli. Ve metodik olarak çalışmanızın sonucunda kendinize teşekkür edeceksiniz.