Data Transform এবং Schema Mapping Techniques গাইড ও নোট

Big Data and Analytics - স্কুপ (Sqoop) - Sqoop Export Operations
315

Apache Sqoop ডেটা স্থানান্তর করার সময় অনেক সময় ডেটা রূপান্তর (Data Transform) এবং স্কিমা ম্যাপিং (Schema Mapping) প্রক্রিয়া প্রয়োজন হয়। এই প্রক্রিয়াগুলো নিশ্চিত করে যে, ডেটা সঠিকভাবে স্থানান্তরিত হয় এবং প্রয়োজনীয় ফরম্যাটে উপস্থাপিত হয়। Sqoop ডেটার রূপান্তর এবং স্কিমা ম্যাপিংকে সমর্থন করে, যা ডেটা ট্রান্সফারের সময় বিভিন্ন ধরণের পরিবর্তন ও কাস্টমাইজেশন করার সুবিধা প্রদান করে।


Data Transform Techniques in Sqoop

ডেটা রূপান্তর (Data Transformation) একটি প্রক্রিয়া, যার মাধ্যমে ইনপুট ডেটাকে আউটপুট ফরম্যাটে পরিবর্তন করা হয়। Sqoop কিছু ট্রান্সফরমেশন অপশন সমর্থন করে, যার মাধ্যমে ডেটা স্থানান্তর করার সময় বিভিন্ন ফরম্যাটে ডেটাকে রূপান্তর করা যায়।


১. কলাম ম্যাপিং (Column Mapping)

কখনও কখনও, রিলেশনাল ডাটাবেসের কলাম নাম এবং Hadoop এর টেবিল বা ফাইলের কলাম নাম আলাদা হতে পারে। এমন অবস্থায়, কলাম ম্যাপিং ব্যবহার করা হয় যাতে ডেটা সঠিকভাবে ম্যাপ হয়।

  • ব্যবহার:
    আপনি --map-column-hive বা --map-column-java অপশন ব্যবহার করে SQL ডাটাবেসের কলামকে Hive বা Java ক্লাসের ফিল্ডে ম্যাপ করতে পারেন।

কমান্ড উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/test --table employees --map-column-hive name=string,age=int --target-dir /user/hadoop/employees

এই কমান্ডটি name এবং age কলামগুলোকে Hive টেবিলের string এবং int টাইপে ম্যাপ করবে।


২. ডেটা ফিল্টারিং (Data Filtering)

ডেটা ট্রান্সফার করার সময় সব ডেটা নিয়ে কাজ না করে, প্রয়োজনীয় ডেটা সিলেক্ট করতে ডেটা ফিল্টারিং ব্যবহার করা হয়। এই ফিচারটি SQL কোয়েরি ব্যবহার করে ফিল্টার করা ডেটা ইম্পোর্ট করতে সহায়ক।

  • ব্যবহার:
    --where অপশন দিয়ে SQL কোয়েরির WHERE ক্লজ ব্যবহার করে নির্দিষ্ট ডেটা ফিল্টার করা যায়।

কমান্ড উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/test --table employees --where "age > 30" --target-dir /user/hadoop/employees

এই কমান্ডটি শুধুমাত্র age > 30 শর্ত পূরণ করা কর্মীদের তথ্য ইম্পোর্ট করবে।


৩. ফিল্ড সেপারেটর (Field Separator)

ইম্পোর্ট করা ডেটার মধ্যে যদি ফিল্ড সেপারেটর পরিবর্তন করতে হয়, তবে ফিল্ড সেপারেটর ব্যবহার করা হয়। এটি CSV ফাইলের জন্য অত্যন্ত গুরুত্বপূর্ণ, যেখানে ফিল্ড আলাদা করার জন্য একটি নির্দিষ্ট সেপারেটর ব্যবহার করা হয়।

  • ব্যবহার:
    --fields-terminated-by অপশন ব্যবহার করে সেপারেটর পরিবর্তন করা যায়।

কমান্ড উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/test --table employees --fields-terminated-by ',' --target-dir /user/hadoop/employees

এই কমান্ডটি CSV ফাইলের মধ্যে ফিল্ডগুলোকে কমা (,) দিয়ে আলাদা করবে।


Schema Mapping Techniques in Sqoop

স্কিমা ম্যাপিং (Schema Mapping) একটি প্রক্রিয়া যেখানে ডেটাবেসের স্কিমা ও ডেটা স্ট্রাকচারকে নতুন পরিবেশে বা টার্গেট স্টোরেজ সিস্টেমে রূপান্তর করা হয়। Sqoop এর মাধ্যমে এই স্কিমা ম্যাপিং কার্যকরভাবে করা যায়।


১. Java Bean Class Mapping

কখনও কখনও রিলেশনাল ডাটাবেসের টেবিল এবং Java ক্লাসের মধ্যে ডেটা ম্যাপিং করতে হয়। Sqoop এই কাজটি Java Bean Class-এর মাধ্যমে সম্পাদন করে।

  • ব্যবহার:
    --class-name অপশন ব্যবহার করে ডেটাবেস টেবিলের ডেটাকে একটি Java Bean Class-এ ম্যাপ করা যায়।

কমান্ড উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/test --table employees --class-name com.example.Employee --target-dir /user/hadoop/employees

এই কমান্ডটি employees টেবিলের ডেটাকে Java Bean ক্লাস Employee-তে রূপান্তর করবে।


২. Hive বা HBase স্কিমা ম্যাপিং

Sqoop ডেটা স্থানান্তর করার সময় ডেটাবেস স্কিমাকে Hive বা HBase স্কিমায় ম্যাপ করতে পারে। এটি Hive টেবিল বা HBase কলামফ্যামিলি তৈরি করার জন্য প্রয়োজনীয় কলাম ম্যাপিং এবং ডেটা টাইপ কনভার্শন সাপোর্ট করে।

  • ব্যবহার:
    --hive-import অপশন ব্যবহার করে Hive টেবিল তৈরি করা এবং --hbase-table অপশন দিয়ে HBase কলামফ্যামিলি তৈরি করা যায়।

কমান্ড উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/test --table employees --hive-import --create-hive-table --target-dir /user/hadoop/employees

এই কমান্ডটি employees টেবিলের ডেটাকে Hive টেবিলের মধ্যে ইম্পোর্ট করবে।


সারাংশ

Sqoop ডেটা ট্রান্সফার ও স্কিমা ম্যাপিং প্রক্রিয়ায় গুরুত্বপূর্ণ ভূমিকা পালন করে। ডেটা রূপান্তরের জন্য এটি কলাম ম্যাপিং, ডেটা ফিল্টারিং, এবং ফিল্ড সেপারেটর প্রক্রিয়াগুলো ব্যবহার করতে সাহায্য করে, যা ডেটা সঠিকভাবে এবং কার্যকরভাবে স্থানান্তরিত হয়। স্কিমা ম্যাপিংয়ের মাধ্যমে ডেটা Java Bean ক্লাস, Hive টেবিল, বা HBase কলামফ্যামিলি-তে রূপান্তরিত হয়। Sqoop এর মাধ্যমে এই ধরনের কাস্টমাইজেশন ডেটার সঠিকতা এবং সম্পূর্ণতা নিশ্চিত করে।

Content added By
Promotion

Are you sure to start over?

Loading...