Skill

HDFS কী এবং কীভাবে কাজ করে?

HDFS (Hadoop Distributed File System) - হাদুপ (Hadoop) - Big Data and Analytics

381

Hadoop Distributed File System (HDFS) হলো Hadoop ফ্রেমওয়ার্কের একটি মূল উপাদান, যা ডিস্ট্রিবিউটেড স্টোরেজ এবং ফাইল সিস্টেমের কাজ করে। এটি বড় আকারের ডেটা স্টোরেজের জন্য ব্যবহৃত হয় এবং ডেটাকে সঞ্চয় করতে একটি বিশেষ পদ্ধতি অনুসরণ করে। HDFS এ ডেটা স্টোরেজের জন্য দুটি প্রধান কম্পোনেন্ট ব্যবহার করা হয়: ফাইল ব্লক (File Block) এবং ডেটা রিপ্লিকেশন (Data Replication)


ফাইল ব্লক (File Block)

HDFS এ, ডেটা বড় আকারের ফাইল হিসেবে সংরক্ষিত হয়। কিন্তু সেগুলো সরাসরি একক ফাইলের আকারে সংরক্ষণ না করে, ডেটাকে ছোট ছোট ব্লকে ভাগ করা হয়। এই ব্লকগুলো বিভিন্ন মেশিনে (নোডে) ভাগ করা হয়, যাতে ডেটার প্রসেসিং এবং স্টোরেজ কার্যক্রম দ্রুত এবং কার্যকর হয়।

ব্লকের আকার

  • ডিফল্ট ব্লক সাইজ: HDFS এর ডিফল্ট ব্লক সাইজ 128MB, তবে এটি কাস্টমাইজ করা যায় (যেমন 64MB বা 256MB)।
  • ব্লক সাইজের গুরুত্ব: বড় ব্লক সাইজ বেশি ডেটা একত্রে স্টোর করতে সাহায্য করে এবং এতে I/O অপারেশন কম হয়, ফলে সিস্টেমের কর্মক্ষমতা বৃদ্ধি পায়।

ব্লক স্টোরেজের সুবিধা

  • ডেটা পার্টিশনিং: বড় ফাইলগুলো ছোট ছোট ব্লকে বিভক্ত করে দ্রুত ডেটা স্টোর এবং প্রসেসিং করা যায়।
  • ডিস্ট্রিবিউটেড স্টোরেজ: ব্লকগুলো আলাদা আলাদা মেশিনে (নোডে) সংরক্ষিত হওয়ায়, ডেটা একাধিক স্থানে উপস্থিত থাকে এবং স্টোরেজ ক্ষমতা স্কেল করা সহজ হয়।

ডেটা রিপ্লিকেশন (Data Replication)

HDFS এর আরেকটি গুরুত্বপূর্ণ বৈশিষ্ট্য হলো ডেটা রিপ্লিকেশন, যা ডেটার সুরক্ষা এবং উচ্চ উপলব্ধতা নিশ্চিত করতে সহায়ক। রিপ্লিকেশন দ্বারা ডেটার একাধিক কপি তৈরি করা হয় এবং সেগুলো সিস্টেমের বিভিন্ন নোডে সংরক্ষিত থাকে।

রিপ্লিকেশন ফ্যাক্টর

  • ডিফল্ট রিপ্লিকেশন ফ্যাক্টর: HDFS এ ডিফল্ট রিপ্লিকেশন ফ্যাক্টর ৩, যার মানে হলো, একটি ফাইলের তিনটি কপি তৈরি করা হয় এবং সেগুলো বিভিন্ন নোডে সংরক্ষিত হয়।
  • রিপ্লিকেশন ফ্যাক্টরের কাস্টমাইজেশন: ব্যবহারকারীরা রিপ্লিকেশন ফ্যাক্টর কাস্টমাইজ করে নির্ধারণ করতে পারেন, যাতে ডেটার সুরক্ষা প্রয়োজন অনুযায়ী একাধিক কপি তৈরি করা যায়।

রিপ্লিকেশন এর সুবিধা

  • ফল্ট টলারেন্স (Fault Tolerance): যদি কোনো নোড বা মেশিন ব্যর্থ হয়, তাহলে ডেটার একাধিক কপি থাকা সত্ত্বেও ডেটা হারানোর ঝুঁকি থাকে না। ডেটার অন্য কপি থেকে পুনরুদ্ধার করা সম্ভব।
  • উচ্চ উপলব্ধতা (High Availability): ডেটার একাধিক কপি থাকার কারণে, একটি নোড বা সার্ভারের সমস্যা হলে অন্য কপিগুলো ব্যবহার করা যায়, ফলে সিস্টেমের কর্মক্ষমতা ক্ষতিগ্রস্ত হয় না।

HDFS এর ফাইল স্টোরেজ মেকানিজম: কিভাবে কাজ করে?

  1. ফাইল আপলোড: যখন একটি ফাইল HDFS এ আপলোড করা হয়, তখন তা প্রথমে ব্লকে বিভক্ত হয়। তারপর, প্রতিটি ব্লক সিস্টেমের নোডে একাধিক কপিতে (যতটা রিপ্লিকেশন ফ্যাক্টর নির্ধারণ করা হয়েছে) সংরক্ষিত হয়।
  2. ডেটা ডিসট্রিবিউশন: ব্লকগুলো সিস্টেমের বিভিন্ন নোডে বিতরণ করা হয়, যেখানে প্রতিটি ব্লক এক বা একাধিক নোডে সংরক্ষিত হয়।
  3. রিপ্লিকেশন ম্যানেজমেন্ট: হাডুপের নেমডে (NameNode) একটি মেটাডেটা ডাটাবেস থাকে, যেখানে প্রতিটি ব্লক এবং তার রিপ্লিকেশনের অবস্থান ট্র্যাক করা হয়।
  4. ফল্ট ডিটেকশন এবং রিপ্লিকেশন: যদি কোনো ব্লকের কপি নোডে কোনো সমস্যা হয় (যেমন নোড ডাউন হয়ে যায়), তাহলে HDFS নিজে থেকেই নতুন কপি তৈরি করে এবং সিস্টেমের অন্যান্য অংশে সংরক্ষণ করে, যাতে ডেটা নিরাপদ থাকে।

সারাংশ

HDFS এর ফাইল স্টোরেজ মেকানিজম ব্লক এবং রিপ্লিকেশন ব্যবস্থার মাধ্যমে কাজ করে। ডেটাকে ব্লকে বিভক্ত করে বিভিন্ন নোডে সংরক্ষণ করা হয় এবং প্রতিটি ব্লকের একাধিক কপি তৈরি করা হয়। এটি ডেটার সুরক্ষা, স্কেলেবিলিটি এবং উচ্চ কর্মক্ষমতা নিশ্চিত করে। HDFS এর এই বৈশিষ্ট্যগুলোর ফলে, বড় আকারের ডেটা সহজে এবং কার্যকরভাবে স্টোর এবং প্রসেস করা সম্ভব হয়।

Content added By
Promotion

Are you sure to start over?

Loading...