İçindekiler:
- Metin belgelerinin etiketlenmesini ve biçimlendirmesini otomatikleştirmek için kullanılan diğer istatistiksel veya dilsel tekniklerle birlikte kullanılan bazı teknikler, aşağıdaki türdeki bilgileri ayıklayabilir:
- Taksonomiler genellikle metin analizi için kritik öneme sahiptir.
Video: Bu Noktaya Basın ve Sertleşen Kakanız Hemen Gelecek 2024
Genel olarak, büyük verilere yönelik metin çözümleme çözümleri, yapılandırılmamış veriden bilgi çıkarmak için istatistiksel ve Doğal Dil İşleme (NLP) tekniklerinin bir kombinasyonunu kullanır. NLP, son 20 yılda gelişen geniş ve karmaşık bir alandır.
NLP'nin öncelikli amacı, metinden anlam çıkartmaktır. Doğal Dil İşleme genellikle gramer yapıları ve konuşma parçaları gibi dilsel kavramları kullanır. Genellikle, bu tür analizlerin arkasındaki fikir, kimin, nerede, ne zaman, nerede ve neden kime yaptıklarını belirlemektir.
Sözcüksel / morfolojik analiz-
, önek, son ek, kök ve konuşma kısımlarını içeren tek bir kelimenin özelliklerini inceler. fiil, sıfat vb.) - verilen metnin içeriğindeki sözcüğün anlamını anlamaya katkıda bulunacak bilgiler. Sözcüksel analiz, bir sözlük, eş anlamlılar listesi veya sözcükler hakkında bilgi sağlayan herhangi bir kelime listesi üzerine kuruludur.
-
, metni incelemek ve kelimeleri bağlam içine koymak için gramer yapısını kullanır. Burada bakışlarını tek bir sözcükten öbürüne ya da tam cümleye genişletiyorsun. Bu adım kelimeler arasındaki ilişkiyi (dilbilgisi) diyagramlayabilir veya doğru cümleleri oluşturan sözcük dizilerini veya tarihleri veya parasal değerleri temsil eden sayı dizileri arar.
-
, bir cümlenin olası anlamlarını belirler. Bu, sözcük sırasını ve cümle yapısını incelemek ve cümleler, cümleler ve paragraflarda bulunan sözdizimini ilişkilendirerek sözcükleri ayırt etmek içerebilir. Söylem düzeyinde analiz
-
cümle seviyesinin ötesinde metnin anlamını belirlemeye çalışır. Büyük verilerin çıkardığı bilgileri anlama
Metin belgelerinin etiketlenmesini ve biçimlendirmesini otomatikleştirmek için kullanılan diğer istatistiksel veya dilsel tekniklerle birlikte kullanılan bazı teknikler, aşağıdaki türdeki bilgileri ayıklayabilir:
Terimler:
-
Başka Anahtar kelimeler için ad. Varlıklar:
-
Genellikle olarak adlandırılan varlıklar , bunlar soyutlamalara özgü örneklerdir. Örnekler, kişilerin isimleri, şirketlerin adları, coğrafi yerler, iletişim bilgileri, tarihler, saatler, para birimleri, unvanlar ve pozisyonlar ve benzeri örneklerdir. Örneğin, metin analitiği yazılımı, Jane Doe öğesini analiz edilen metinde belirtilen kişi olarak ayıklayabilir. 3 Mart 2007 varlığı bir tarih olarak çıkarılabilir, vb. Gerçekler:
-
ilişkileri , olarak da adlandırılan gerçekler, iki varlık arasındaki kim / ne / nerede ilişkileri belirtir. John Smith, Şirket Y 'un CEO'su ve Aspirin ateşi azaltır gerçeklerin örnekleridir. Olaylar:
-
Bazı uzmanlar gerçek , ilişki , ve olay terimlerini birbirlerinin yerine kullanırken bazıları olaylar ve olgular arasında ayrım yapmakta, olayların genellikle bir zaman boyutu içerdiğini ve çoğunlukla olguların değişmesine neden olduğunu belirtti. Örnekler, bir şirkette yönetim değişikliği veya bir satış süreci statüsü içerir. Kavramlar:
-
Bu, kullanıcıyla ilgili belirli bir fikri veya konuyu belirten kelime ve cümlelerin kümeleridir. Örneğin, mutsuz müşteri kavramı, öfkeli, hayal kırıklığına uğrayan, ve şaşkın ve cümlelerinin hizmetin kesilmesi, geri arama, ve israf para - diğerleri arasında. Bu nedenle, mutsuz müşteri kavramı, metinde görünen mutsuz veya müşteri kelimeleri olmadan çıkartılabilir. Duyarlılık:
-
Duyarlılık analizi, altta yatan metindeki bakış açılarını veya duyguları tanımlamak için kullanılır. Bazı teknikler bunu, makine öğrenmesi veya NLP teknikleri kullanarak, örneğin öznel (görüş) veya nesnel (gerçek) olarak metin sınıflandırarak yapar. Duyarlılık analizi, "müşteri sesi" türünde uygulamalar arasında çok popüler hale geldi. Büyük veri sınıflandırmaları
Taksonomiler genellikle metin analizi için kritik öneme sahiptir.
taksonomisi , bilgileri hiyerarşik ilişkiler halinde düzenlemek için bir yöntemdir. Bazen kategorileri organize etmenin bir yolu olarak bahsedilir. Bir taksonomi, bir şirketin kullandığı terimler arasındaki ilişkileri tanımladığı için, metni bulmayı ve analiz etmeyi kolaylaştırır. Örneğin, bir telekomünikasyon servis sağlayıcı hem kablolu hem de kablosuz hizmet sunmaktadır. Kablosuz serviste şirket, cep telefonlarını ve İnternet erişimini destekleyebilir. Şirket, daha sonra, planlar ve telefon türleri gibi cep telefonu servisini kategorize etmek için iki veya daha fazla yola sahip olabilir. Taksonomi bir telefonun parçalarına kadar ulaşabilir.
Taksonomiler, cep telefonunun, cep telefonunun ve cep telefonunun hepsinin aynı olduğunu kabul ederek eşanlamlıları ve alternatif ifadeleri de kullanabilir. Bu taksonomiler oldukça karmaşık olabilir ve gelişmesi uzun sürebilir.