İnsan ırkı artık giderek daha küçük ve güçlü donanım tarafından üretilen benzeri görülmemiş miktarda verinin inanılmaz bir kesişim noktasındadır ve algoritmalar tarafından analiz edilmiştir. süreci geliştirmeye yardımcı oldu. Bu, yalnızca kendi başlarına zor olan bir hacim meselesi değil.
Araştırma şirketi Gartner tarafından 2001 yılında resmileştirilmiş ve daha sonra IBM gibi diğer şirketler tarafından tekrarlanan ve genişletilen büyük veriler, kilit özelliklerini temsil eden dört V ile özetlenebilir:
Hacim: Veri miktarı
Hız: Veri üretme hızı
Çeşitlilik: Veri kaynakları sayısı ve türleri
Veracity: Verilerin belirsizliğinin bir ölçütü olan verilerin kalite ve yetkili sesi (hataları niceleyerek, hatalı veriyi ve sinyal ile karışık gürültüyü nicelikle ifade eder)
Her büyük veri karakteristiği bir meydan okuma ve fırsat sunar. Örneğin, hacim yararlı verilerin miktarını göz önüne alır. Bir kuruluşun büyük verileri ne biri olarak kabul ettiği, başka birinin küçük verileri olabilir. Verileri tek bir makinede işleme yetmezliği, veriyi büyük ölçüde sağlamaz. Büyük veriyi her zamanki gibi iş dünyasından ayıran şey, bir kuruluşu yaygın yöntem ve çözümlerini revize etmeye zorlamak ve mevcut teknolojileri ve algoritmaları ileriye dönük tutmaya zorlamaktır.
Gerçeklik özelliği, verilerin demokratikleşmesine yardımcı olur. Geçmişte örgütler, veriyi değerli ve zor elde ettiğinden tuttu. Bu noktada, çeşitli kaynaklar, verilerin depolanması anlamsızdır (dünya verisinin yüzde 90'ı son iki yılda yaratılmıştır), bu nedenle erişimi sınırlamak için bir neden yoktur. Veri, dünyanın dört bir yanında birçok açık veri programının bulunduğu bir metaya dönüşüyor.(Amerika Birleşik Devletleri, uzun bir açık erişim geleneğine sahiptir; ilk açık veri programları, Ulusal Okyanus ve Atmosfer İdaresi, NOAA, hava bilgilerini serbestçe serbest bırakmaya başlamış olan 1970'lere kadar uzanmaktadır.) Ancak veriler, bir meta haline geldiğinden, bu verilerin belirsizliği bir sorun haline gelmiştir. Verilerin tamamen doğru olup olmadığını artık bilemezsiniz, çünkü kaynağını bile bilmiyorsunuzdur. Veriler o kadar çok yer kaplıyor ki değeri artık gerçek bilgilerde değil (bir firmanın veritabanında saklanan veriler gibi). Verilerin değeri, onu nasıl kullandığınızı gösterir. Burada algoritmalar devreye giriyor ve oyunu değiştiriyor. Google gibi bir şirket, web sitelerinin içeriği veya kamuya açık metinler ve kitaplarda bulunan metin gibi kendine özgü mevcut verilerden yararlanır. Yine de, Google'ın veriden elde ettiği değer çoğunlukla algoritmalarından kaynaklanmaktadır. Örnek olarak, veri değeri Google'ın işinin temelini oluşturan PageRank algoritmasında (Bölüm 11'de gösterilmiştir) yer almaktadır. Algoritmaların değeri diğer şirketler için de geçerlidir. Amazon'un tavsiye motoru, şirketin gelirlerinin önemli bir bölümüne katkıda bulunuyor. Birçok finansal firma, serbestçe mevcut hisse senedi verilerini ve yatırımlar için ekonomik bilgileri kullanarak algoritmik ticaret ve robo tavsiyeleri kullanır.