Video: The Great Gildersleeve: Leroy's Toothache / New Man in Water Dept. / Adeline's Hat Shop 2024
Bir veri ambarını tasarlarken hangi dış veriye ihtiyacınız olduğunu belirlerseniz, yalnızca bir sipariş verirsiniz (çevrimiçi bir siteden kıyafetler veya meyve sepeti sipariş etmek gibi). Bir akarsu, dosya aktarımı veya başka yollarla veri almaya başladıktan sonra, düzgün yelken açılıyor - değil mi?
Gelen verilerin kalitesi ne oldu? Kendi iç sistemlerinizden gelen verilere yaptığınız harici olarak sağlanan verilere aynı kalite güvencesi (QA) prosedürlerini mutlaka uygulamalısınız. Açık pazardaki bilgileri satın almanızın verilerin kusursuz olduğunu garanti etmez.
Aşağıdaki adımları izleyerek her gelen veri topluluğuna QA prosedürlerini uygulayın:
-
Gelen verilerde kontrol değerlerinin dosyalara eklenip eklenmediğini öğrenin.
Kontrol değerlerine bazı örnekler, her dosyadaki kayıtların sayısı, her sayısal sütunun toplam değeri (örneğin, tüm kayıtlar için satılan toplam satışlar ve tüm kayıtlar için satılan toplam birimler) ve toplam sütun değerlerinin alt kümeleri (örneğin, devlete göre toplam satış miktarı ve birim).
Kontrol değerleri sağlanırsa, uçtan uca yükleme prosedürlerinin bir parçası olarak saklanmalı ve kullanılmalıdır. Kontrol toplamları, yükleme için verileri hazırlarken yaptığınız hesaplamalara uygun olana kadar kimse deponun içeriğini resmi olarak güncellememelidir.
-
Hiçbir kontrol değeri sağlanmazsa, bunları isteyin.
Talep doldurulması için birkaç döngü (örneğin birkaç hafta veya ay gibi sürebilir) olmasına rağmen, yüksek düzeyde bir müşteri hizmeti sunmak isteyen herhangi bir veri sağlayıcısı bu tür bir talebi ciddiye alır ve istenen kontrol bilgilerini yapmak için çaba sarf eder mevcut.
-
Yükleme prosedürleriniz sırasında her satırı filtreleyin.
Aşağıdaki koşullardan birinin doğru olduğundan emin olun:
-
Tuşlar (her kayıt için benzersiz tanımlayıcılar) tüm bilgilerde doğrudur. Örneğin, SalesMasterRecord veri grubundaki her kayıt SalesDetailRecord'da (her ay için bir tane olmak üzere) tam olarak ilgili 12 kayıta sahipse, kayıt anahtar değerlerini karşılaştırarak tüm ayrıntı kayıtlarının mevcut olduğundan emin olun.
-
Değer aralıkları doğru. Örneğin, aylık ürün satışları, bu tür ürünler için makul sınırlar içerisinde olmalıdır (örneğin, uçaklar cıvatalar gibi farklıdır).
-
Eksik bilgi alanları (muhtemelen - neredeyse kaçınılmaz - harici olarak sağlanan verilerle ortaya çıkma) gelen verilerin anlamını bozmayın.
Örneğin, ek verilerin olmaması (belirli endüstriniz veya kuruluşunuz için iş kurallarına göre tanımlanmıştır) çok ciddi bir sorun olmayabilir, ancak Gelen kayıtların yarısının UnitsSold, TotalSalesPrice, ya da başka kritik türdeki bilgiler olmalıdır, verilerin değeri en iyi ihtimalle tartışmalıdır.
-
Özellikle harici verileri (örneğin ilk üç ya da dört ay) edinmenin ilk aşamalarında, kullanıcılarınızın işi gerçekleştirmek için aynı araçları kullanmadan önce veri kalitesi analizini gerçekleştirmek için Bölüm 10'da açıklandığı gibi analitik araçlarınızı kullanın. analizi.
Tuhaflıklar, anomaliler, şaşırtıcı sonuçlar, tutarsızlıklar, açık parantezler ve garip görünen başka herhangi bir şey ara. Ardından, garipliğin kaynağını kontrol etmek için verilerin köklerini inceleyin.
Muhtemelen milyonlarca satır gelen veriyle uğraştığınızı unutmayın: Her bir satırı kişisel olarak kontrol edememekle birlikte, olası her koşul için filtreleme ve KG denetim ölçütlerinizi ayarlamakta güçlük çekebilirsiniz.
Dışarıdan sağlanan kaynak verileri olan herhangi bir şeyi yapmış olan her kişi, her türlü garip tutarsızlıklara ve gelen bilgiye eksik veri bulmuştur. Kendinizi kullanıcıların yerine koyarak ve kullandıkları araçları kullanırsanız, düzeltebileceğiniz bir veya iki şeyi keşfedebilir, bu da veri ambarı değerli işletme bilgilerinin daha iyi depolanmasını sağlar.
-