Video: Sqoop Import and Export data from RDMBS and HDFS 2024
Sqoop ile veri içe aktarmaya hazır mısınız? Bir RDBMS veya veri ambarı sisteminden tipik bir Sqoop alma işlemindeki adımları gösteren şekle bakarak başlayın. Burada çok karmaşık bir iş yok - tipik bir veri yönetim sisteminden (DMS) tipik bir Apache Hadoop kümesine aktarılan (tipik) kurgusal bir şirketten gelen tipik bir Ürün veri tablosu.
Adım 1 sırasında Sqoop, hedef DMS'den Ürünler tablosu meta verilerini almak için uygun bağlayıcıyı kullanır. (Meta veriler, Products tablodan veri türlerini Java dilindeki veri türlerine eşlemek için kullanılır.)
Adım 2, daha sonra bu meta veriyi, bir veya daha fazla harita görevi tarafından kullanılacak bir Java sınıfı oluşturmak ve derlemek için kullanır gerçek satırları Ürünler tablosundan içe aktarın. Sqoop oluşturulan Java sınıfını, geçici kayıt alanına veya belirlediğiniz bir dizine kaydeder, böylece veri kayıtlarınızın sonraki işlenmesinde kaldıraçlı kalabilirsiniz.
Sizin için kaydedilen Sqoop üretilen Java kodu, vermeye devam eden hediye gibidir! Bu kodla Sqoop, DMS'den kayıtları alır ve seçebileceğiniz üç formattan birini kullanarak HDFS'ye depolar: ikili Avro verileri, ikili dizi dosyaları veya ayrılmış metin dosyaları. Ardından, bu kod daha sonraki veri işleme için kullanımınıza sunulmuştur.
Sıra dosyaları, ikili veri türlerini içe aktarıyorsanız ve verilerini daha sonra serileştirmek ve serilerden çıkarmak için üretilmiş Java sınıfına ihtiyacınız olacak - belki MapReduce işleme veya verme için doğal bir tercihtir. Avro verileri - Apache'nin kendi seri hale getirme çerçevesine dayanıyor - HDFS'ye aktarıldıktan sonra diğer uygulamalarla etkileşim kurmanız gerekiyorsa yararlıdır.
İçe aktarılan verilerinizi sınırlandırılmış metin biçiminde saklamayı seçerseniz, oluşturulan Java kodunu daha sonra ayrıştırırken ve yeni verileriniz üzerinde veri biçimi dönüştürmeleri yaparken değerli bulabilirsi- niz. Üretilen kodun, Sqoop alma işlemlerinden sonra veri setlerini birleştirmenize yardımcı olduğunu ve oluşturulan Java kodu, ayrılmış metin verilerini işlerken belirsizlikten kaçınmaya yardımcı olabileceğini göreceksiniz.
Son olarak, Adım 3 sırasında Sqoop, Ürünler tablosundaki veri kayıtlarını bir dizi harita görevi içine (kullanıcı tarafından isteğe bağlı olarak belirlenmiş harita oluşturucularla birlikte) böler ve tablo verilerini HDFS, Hive veya HBase'ye aktarır.