İçindekiler:
- Belgelerde terimlerin tahmini bir analiz matrisi nasıl oluşturulur?
- Bir terimin bir koleksiyonda frekansına göreceli önemini temel alarak sıklıkla
Video: Technology Stacks - Computer Science for Business Leaders 2016 2024
Tahmin analizi projeniz için veri setinizden benzer veri maddeleri gruplarını çıkarabilmeniz için verilerinizi bir tablo biçiminde temsil etmeniz gerekebilir veri matrisi olarak bilinen biçimi. Bu, veri kümelemesinden önce gelen bir önişleme adımdır.
Belgelerde terimlerin tahmini bir analiz matrisi nasıl oluşturulur?
Analiz etmek üzereyken, veri setinin bir dizi Microsoft Word belgesinde bulunduğunu varsayalım. Yapmanız gereken ilk şey, belge kümesini bir veri matrisine dönüştürmektir. Birkaç ticari ve açık kaynaklı araç bu görevi üstlenebilir ve her satırın veri kümesindeki bir belgeye karşılık geldiği bir matris üretir. Bu araçlara örnek olarak RapidMiner ve R text-mining paketleri verilebilir.
A dokümanı , özünde bir dizi kelime olur. terimi , bir veya birden çok kelimeden oluşan bir kümedir.
Bir belgenin içerdiği her terim aynı belgede bir ya da birkaç kez belirtilir. Bir belgede bir terimin kaç kez belirtildiği, sayısal bir değer olan terim sıklığı (TF) ile temsil edilebilir.
Belgede terimlerin matrisini aşağıdaki gibi oluşturduk:
-
Tüm belgelerde görünen terimler üst sırada listelenmiştir.
-
Döküman başlıkları en sol sütunda listelenmiştir
-
Matris hücrelerinde görünen sayılar her terim frekansına karşılık gelir.
Örneğin, Belge A, sayıların (5, 16, 0, 19, 0, 0) kümesi olarak gösterilir; burada 5, tahmini analitik teriminin tekrarlanma sayısı, 16 kez bilgisayar bilimleri sayısına karşılık gelir, vb. Bu, bir dizi belgeyi bir matriste dönüştürmenin en basit yoludur.
Bir terimin bir koleksiyonda frekansına göreceli önemini temel alarak sıklıkla
ağırlıklandırma
olarak bilinir. Atadığınız ağırlık iki ilkeye dayanabilir:
Bir belgede birkaç kez görünen terimler, yalnızca bir kez görünen terimler için tercih edilir. Nispeten az sayıda belgede kullanılan terimler, tüm belgelerde belirtilen terimler karşısında tercih edilir. Örneğin, veri kümenizdeki tüm belgelerde (
-
yüzyıl
-
terimi) bahsedilirse, matriste kendi sütununa sahip olmak için yeterli ağırlığa sahip olmayı düşünmüyorsunuzdur.
Benzer şekilde, bir çevrimiçi sosyal ağ kullanıcısının bir veri kümesiyle uğraşıyorsanız, bu veri kümesini kolayca bir matrise dönüştürebilirsiniz. Kullanıcı kimlikleri veya isimleri satırları işgal edecek; sütunlarda bu kullanıcıları en iyi tanımlayan özellikler listelenir.