HDFS কী এবং কীভাবে কাজ করে?

HDFS (Hadoop Distributed File System) - হাদুপ (Hadoop) - Big Data and Analytics

381

Hadoop Distributed File System (HDFS) হলো Hadoop ফ্রেমওয়ার্কের একটি মূল উপাদান, যা ডিস্ট্রিবিউটেড স্টোরেজ এবং ফাইল সিস্টেমের কাজ করে। এটি বড় আকারের ডেটা স্টোরেজের জন্য ব্যবহৃত হয় এবং ডেটাকে সঞ্চয় করতে একটি বিশেষ পদ্ধতি অনুসরণ করে। HDFS এ ডেটা স্টোরেজের জন্য দুটি প্রধান কম্পোনেন্ট ব্যবহার করা হয়: ফাইল ব্লক (File Block) এবং ডেটা রিপ্লিকেশন (Data Replication)।

ফাইল ব্লক (File Block)

HDFS এ, ডেটা বড় আকারের ফাইল হিসেবে সংরক্ষিত হয়। কিন্তু সেগুলো সরাসরি একক ফাইলের আকারে সংরক্ষণ না করে, ডেটাকে ছোট ছোট ব্লকে ভাগ করা হয়। এই ব্লকগুলো বিভিন্ন মেশিনে (নোডে) ভাগ করা হয়, যাতে ডেটার প্রসেসিং এবং স্টোরেজ কার্যক্রম দ্রুত এবং কার্যকর হয়।

ব্লকের আকার

ডিফল্ট ব্লক সাইজ: HDFS এর ডিফল্ট ব্লক সাইজ 128MB, তবে এটি কাস্টমাইজ করা যায় (যেমন 64MB বা 256MB)।
ব্লক সাইজের গুরুত্ব: বড় ব্লক সাইজ বেশি ডেটা একত্রে স্টোর করতে সাহায্য করে এবং এতে I/O অপারেশন কম হয়, ফলে সিস্টেমের কর্মক্ষমতা বৃদ্ধি পায়।

ব্লক স্টোরেজের সুবিধা

ডেটা পার্টিশনিং: বড় ফাইলগুলো ছোট ছোট ব্লকে বিভক্ত করে দ্রুত ডেটা স্টোর এবং প্রসেসিং করা যায়।
ডিস্ট্রিবিউটেড স্টোরেজ: ব্লকগুলো আলাদা আলাদা মেশিনে (নোডে) সংরক্ষিত হওয়ায়, ডেটা একাধিক স্থানে উপস্থিত থাকে এবং স্টোরেজ ক্ষমতা স্কেল করা সহজ হয়।

ডেটা রিপ্লিকেশন (Data Replication)

HDFS এর আরেকটি গুরুত্বপূর্ণ বৈশিষ্ট্য হলো ডেটা রিপ্লিকেশন, যা ডেটার সুরক্ষা এবং উচ্চ উপলব্ধতা নিশ্চিত করতে সহায়ক। রিপ্লিকেশন দ্বারা ডেটার একাধিক কপি তৈরি করা হয় এবং সেগুলো সিস্টেমের বিভিন্ন নোডে সংরক্ষিত থাকে।

রিপ্লিকেশন ফ্যাক্টর

ডিফল্ট রিপ্লিকেশন ফ্যাক্টর: HDFS এ ডিফল্ট রিপ্লিকেশন ফ্যাক্টর ৩, যার মানে হলো, একটি ফাইলের তিনটি কপি তৈরি করা হয় এবং সেগুলো বিভিন্ন নোডে সংরক্ষিত হয়।
রিপ্লিকেশন ফ্যাক্টরের কাস্টমাইজেশন: ব্যবহারকারীরা রিপ্লিকেশন ফ্যাক্টর কাস্টমাইজ করে নির্ধারণ করতে পারেন, যাতে ডেটার সুরক্ষা প্রয়োজন অনুযায়ী একাধিক কপি তৈরি করা যায়।

রিপ্লিকেশন এর সুবিধা

ফল্ট টলারেন্স (Fault Tolerance): যদি কোনো নোড বা মেশিন ব্যর্থ হয়, তাহলে ডেটার একাধিক কপি থাকা সত্ত্বেও ডেটা হারানোর ঝুঁকি থাকে না। ডেটার অন্য কপি থেকে পুনরুদ্ধার করা সম্ভব।
উচ্চ উপলব্ধতা (High Availability): ডেটার একাধিক কপি থাকার কারণে, একটি নোড বা সার্ভারের সমস্যা হলে অন্য কপিগুলো ব্যবহার করা যায়, ফলে সিস্টেমের কর্মক্ষমতা ক্ষতিগ্রস্ত হয় না।

HDFS এর ফাইল স্টোরেজ মেকানিজম: কিভাবে কাজ করে?

ফাইল আপলোড: যখন একটি ফাইল HDFS এ আপলোড করা হয়, তখন তা প্রথমে ব্লকে বিভক্ত হয়। তারপর, প্রতিটি ব্লক সিস্টেমের নোডে একাধিক কপিতে (যতটা রিপ্লিকেশন ফ্যাক্টর নির্ধারণ করা হয়েছে) সংরক্ষিত হয়।
ডেটা ডিসট্রিবিউশন: ব্লকগুলো সিস্টেমের বিভিন্ন নোডে বিতরণ করা হয়, যেখানে প্রতিটি ব্লক এক বা একাধিক নোডে সংরক্ষিত হয়।
রিপ্লিকেশন ম্যানেজমেন্ট: হাডুপের নেমডে (NameNode) একটি মেটাডেটা ডাটাবেস থাকে, যেখানে প্রতিটি ব্লক এবং তার রিপ্লিকেশনের অবস্থান ট্র্যাক করা হয়।
ফল্ট ডিটেকশন এবং রিপ্লিকেশন: যদি কোনো ব্লকের কপি নোডে কোনো সমস্যা হয় (যেমন নোড ডাউন হয়ে যায়), তাহলে HDFS নিজে থেকেই নতুন কপি তৈরি করে এবং সিস্টেমের অন্যান্য অংশে সংরক্ষণ করে, যাতে ডেটা নিরাপদ থাকে।

সারাংশ

HDFS এর ফাইল স্টোরেজ মেকানিজম ব্লক এবং রিপ্লিকেশন ব্যবস্থার মাধ্যমে কাজ করে। ডেটাকে ব্লকে বিভক্ত করে বিভিন্ন নোডে সংরক্ষণ করা হয় এবং প্রতিটি ব্লকের একাধিক কপি তৈরি করা হয়। এটি ডেটার সুরক্ষা, স্কেলেবিলিটি এবং উচ্চ কর্মক্ষমতা নিশ্চিত করে। HDFS এর এই বৈশিষ্ট্যগুলোর ফলে, বড় আকারের ডেটা সহজে এবং কার্যকরভাবে স্টোর এবং প্রসেস করা সম্ভব হয়।

Content added By

Rezwan Siddiki Tamim

HDFS এর ফাইল স্টোরেজ মেকানিজম (Block, Replication) HDFS এর জন্য Namenode এবং Datanode এর ভূমিকা HDFS Commands এবং File Operations

HDFS কী এবং কীভাবে কাজ করে?

ফাইল ব্লক (File Block)

ব্লকের আকার

ব্লক স্টোরেজের সুবিধা

ডেটা রিপ্লিকেশন (Data Replication)

রিপ্লিকেশন ফ্যাক্টর

রিপ্লিকেশন এর সুবিধা

HDFS এর ফাইল স্টোরেজ মেকানিজম: কিভাবে কাজ করে?

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

HDFS কী এবং কীভাবে কাজ করে?

ফাইল ব্লক (File Block)

ব্লকের আকার

ব্লক স্টোরেজের সুবিধা

ডেটা রিপ্লিকেশন (Data Replication)

রিপ্লিকেশন ফ্যাক্টর

রিপ্লিকেশন এর সুবিধা

HDFS এর ফাইল স্টোরেজ মেকানিজম: কিভাবে কাজ করে?

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!