Video: Bilişim Sohbetleri - Big Data Dünyası - Zekeriya Beşiroğlu 2024
Perspektifte, veri analizi için bir mimari tasarlamak amacı, büyük verileri yakalamak, sıralamak ve analiz etmek için bir çerçeve oluşturmaktır İcra edilebilir sonuçlar keşfetmek.
Büyük verileri, uygulanabilir sonuçlara dönüştürecek mimari düşünün.Büyük veri analizi için mimari ortamı tasarlamak için doğru yol yok. Ancak, çoğu tasarımın büyük verilerin getireceği güçlükleri gidermek için aşağıdaki gereksinimleri karşılaması gerekir. Bu kriterler ağırlıklı olarak altı kat üzerinde dağılabilir ve şu şekilde özetlenebilir:
- Mimarinizde, depolama ve hesaplama için, ölçeklendirme yapabilecek Hadoop veya Spark gibi büyük bir veri platformu bulunmalıdır.
- Mimarisinde, büyük verileri analiz etme, depolama ve alma kapasitesine sahip büyük ölçekli yazılımlar ve büyük veri araçları bulunmalıdır. Bunlar Spark'ın bileşenleri veya Hadoop ekosisteminin bileşenlerinden (Mahout ve Apache Storm gibi) oluşabilir. Ayrıca, işletmenizdeki veri bilimcileri tarafından kullanılacak büyük bir veri büyük ölçekli bir araç benimseyip isteyebilirsiniz. Bunlar arasında RapidMiner, IBM Watson ve diğer pek çok Radoop bulunur.
- Mimariniz sanallaştırmayı desteklemelidir. Sanallaştırma, bulut bilişiminin vazgeçilmez bir unsurudur, çünkü aynı sunucuda birden fazla işletim sisteminin ve uygulamasının aynı anda çalışmasına olanak tanır. Bu yeteneğinden dolayı, sanallaştırma ve bulut bilgiişlem genellikle el ele gider. Ayrıca mimarisinde özel bir bulut oluşturabilirsiniz. Özel bir bulut, genel bulut ile aynı mimari sunmaktadır, ancak özel bir buluttaki hizmetler belirli sayıda kullanıcıya yönelik bir güvenlik duvarı ile sınırlandırılmıştır. Amazon Elastic Computer Cloud, işletmeler için özel bulut çözümleri ve depolama alanı sağlayan en büyük sağlayıcılardan biridir ve büyüdükçe ölçeklenebilir.
- Kuruluşunuz hızlı veri (hızlı bir hızda akış halinde akan veriler) ile çalışıyorsa, mimariniz gerçek zamanlı analitik sunmak zorunda kalabilir. Bir senaryoda, verilerin diske yazılmasını beklemeksizin verilere dayalı gerçek zamanlı verilerin türevini destekleyen bir altyapı düşünmelisiniz. Örneğin, Apache Spark'ın akış kütüphanesi, hızlı veri akışlarında analitiği desteklemek için diğer bileşenlerle yapıştırılabilir.
- Verilerinize ve sonuçlarınıza erişim kaynağı etrafında bir yönetişim sistemi oluşturarak mimariniz Büyük Veri güvenliği için hesap vermelidir. Büyük veri güvenliği mimarisi, kuruluşunuzdaki veri kaynaklarına erişimi yöneten standart güvenlik uygulamaları ve politikaları ile uyumlu olmalıdır.
Tahmini modeller oluşturmanın ardındaki algoritmalar ve karmaşıklık uzmanlığına ihtiyaç duymadan veri analizine başlamanıza yardımcı olacak güçlü bir araç arıyorsanız, KNIME, RapidMiner veya IBM Watson'ı diğerlerinden de denemelisiniz.
Yukarıdaki araçların çoğunda, başlamanıza olanak tanıyan kapsamlı ve kullanıma hazır bir araç kutusu bulunmaktadır. Örneğin, RapidMiner, tahmin edici analitik yaşam döngüsünün farklı durumlarından çok sayıda algoritmaya sahiptir; bu nedenle, analitik modellerin hızlı bir şekilde birleştirilmesi ve uygulanması için basit bir yol sağlar.
RapidMiner ile verilerinizi hızla yükleyebilir ve hazırlayabilir, tahmini modeller oluşturabilir ve değerlendirebilir, uygulamalarınızdaki veri süreçlerini kullanabilir ve iş kullanıcılarınızla paylaşabilirsiniz. Çok az tıklama ile basit bir tahminsel analitik model oluşturabilirsiniz.
RapidMiner ile analitik sürükleyip bırakın.RapidMiner hem yeni başlayanlar hem de uzmanlar tarafından kullanılabilir. RapidMiner Studio, veri analitiği sürecinizi oluşturmak için veri yükleme, veri ön işleme, tahmini analitik algoritmalar ve model değerlendirmeleri için algoritmaları sürükleyip bırakabileceğiniz, kullanımı kolay bir grafiksel arayüze sahip, açık kaynaklı bir tahminsel analitik yazılımdır.
RapidMiner, veri bilimcilerine bin'den fazla farklı işlem ve algoritmadan oluşan kapsamlı bir araç kutusu sağlamak üzere inşa edilmiştir. Veri kaynağınızın Excel, Access, MS SQL, MySQL, SPSS, Salesforce veya RapidMiner tarafından desteklenen diğer herhangi bir formatta olmasına bakılmaksızın, veriler hızlı bir şekilde yüklenebilir. Veri yükleme, tahmini model oluşturma ve model değerlendirmeye ek olarak, bu araç aynı zamanda ayarlanabilen kendi kendini düzenleyen haritalar ve 3 boyutlu grafikler içeren veri görselleştirme araçları sunar.
RapidMiner, kendi algoritmalarınızı RapidMiner'da bulunan herhangi bir boru hattına entegre etmenizi sağlayan açık bir uzantı uygulama programlama arabirimi (API) sunar. Ayrıca birçok platformla uyumludur ve büyük işletim sistemlerinde çalışabilir. RapidMiner'ı süreçlerini paylaşabilecekleri ve sorulara cevap vereceği ve cevaplayabilecekleri, veri bilimcileri tarafından ortaya çıkan yeni bir çevrimiçi topluluk var.
Analitik dünyada yaygın olarak kullanılan bir başka kolay kullanımlı araç KNIME'dir. KNIME, Konstanz Bilgi Minaresi'nin kısaltmasıdır. Bir veri boru hattı konsepti aracılığıyla tahmini modeller oluşturmanıza yardımcı olabilecek açık kaynaklı bir veri analitiğidir. Araç, ETL (ekstraksiyon, Dönüştürme ve Yükleme) için sürükle ve bırak bileşenleri ve tahmini modelleme bileşenleri ile veri görselleştirme özelliklerini sunar.
KNIME ve RapidMiner, tah tahmin modelleri oluşturmaya kolayca başlamak için veri bilim ekibinizi kurabileceğiniz araçlardır. KNIME'de mükemmel bir kullanım örneği için, "Boyutsallık Azaltımı için Yedi Teknikler" kâğıdına bakın. "
RapidMiner Radoop, RapidMiner tarafından Hadoop ve Spark ortamlarında çalıştırılmak üzere RapidMiner Studio'da tahmini analitik araç kutusunu genişleten bir üründür.Radoop, MapReduce, Domuz, Mahout ve Spark'ı kapsüller. İş akışlarınızı Radoop'ta tanımladıktan sonra, talimatlar Hadoop veya Spark ortamında yürütülür, dolayısıyla tahmini modelleri programlamak zorunda kalmaz, ancak modellerin değerlendirilmesi ve yeni modellerin geliştirilmesi üzerine odaklanmanız gerekmez.
Güvenlik için Radoop Kerberos kimlik doğrulamasını destekler ve Apache Ranger ve Apache Sentry ile bütünleşir.