DataFrames এবং Datasets গাইড ও নোট

Big Data and Analytics - স্পার্ক এসকিউএল (Spark SQL)

299

Spark SQL-এর দুটি প্রধান উপাদান হল DataFrames এবং Datasets। এই দুটি উপাদান Spark SQL এর শক্তিশালী এবং ফ্লেক্সিবল ডেটা ম্যানিপুলেশন সরঞ্জাম হিসেবে কাজ করে। DataFrames এবং Datasets SQL কোয়ারি, ডেটা ট্রান্সফর্মেশন, এবং বিশ্লেষণ প্রক্রিয়াকে অনেক সহজ এবং কার্যকরী করে তোলে।

DataFrame

DataFrame হলো একটি ২-ডাইমেনশনাল, ট্যাবুলার ডেটা স্ট্রাকচার যা রো এবং কলাম দ্বারা গঠিত। এটি SQL টেবিলের মতো দেখতে এবং কাজ করে, এবং DataFrame এ স্ট্রাকচারড ডেটা সংরক্ষিত থাকে। Spark SQL-এ DataFrame ব্যবহারের মাধ্যমে আপনি SQL কোয়ারি বা প্রোগ্রামিং API ব্যবহার করে ডেটা প্রসেস করতে পারেন।

DataFrame এর বৈশিষ্ট্যসমূহ:

স্ট্রাকচারড ডেটা: DataFrame-এ ডেটা একটি টেবিলের মতো থাকে, যার রো এবং কলাম থাকে।
SQL সমর্থন: SQL কোয়ারি লেখা যায় এবং DataFrame এর মাধ্যমে ডেটা প্রক্রিয়া করা যায়।
বিভিন্ন ফরম্যাটের সমর্থন: JSON, Parquet, ORC, Avro ইত্যাদি ফাইল ফরম্যাটে ডেটা লোড এবং সেভ করা যায়।
অপটিমাইজেশন: Catalyst Optimizer-এর মাধ্যমে DataFrame অপটিমাইজড হয়ে থাকে, যা কোয়ারি এক্সিকিউশনের সময় পারফরম্যান্স বৃদ্ধি করে।

উদাহরণ:

# Python-এ DataFrame তৈরি
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameExample").getOrCreate()

data = [("Alice", 1), ("Bob", 2), ("Charlie", 3)]
df = spark.createDataFrame(data, ["Name", "Value"])

df.show()

এই কোডে একটি DataFrame তৈরি করা হয়েছে, যেখানে নাম এবং মান সংক্রান্ত ডেটা রয়েছে।

Dataset

Dataset Spark SQL-এর একটি আরও শক্তিশালী ডেটা স্ট্রাকচার যা টাইপ সেফ (type-safe) এবং এটির মধ্যে রক্ষণাবেক্ষণ করা ডেটার জন্য একটি জেনেরিক টাইপ থাকে। DataFrame এবং Dataset একই রকম কাজ করে, তবে Dataset টাইপ সেফ, অর্থাৎ এটি এমন একটি ডেটা স্ট্রাকচার যা ডেটার ধরন চেক করতে সাহায্য করে এবং কম্পাইল টাইমে ত্রুটি সনাক্ত করতে পারে।

Dataset এর বৈশিষ্ট্যসমূহ:

টাইপ সেফ: Dataset তে ডেটার ধরন সংরক্ষিত থাকে এবং কম্পাইল টাইমে ভুল ত্রুটি ধরতে সাহায্য করে।
DataFrame এর সঙ্গে তুলনা: Dataset আসলে DataFrame এর একটি টাইপ সেফ ভার্সন, যার মধ্যে টাইপ চেকিং করার ক্ষমতা রয়েছে।
অপটিমাইজেশন: Dataset-এর মধ্যেও Catalyst Optimizer ব্যবহার হয়, ফলে এটি DataFrame-এর মতোই অপটিমাইজড থাকে।

উদাহরণ:

// Scala-এ Dataset তৈরি
val spark = SparkSession.builder.appName("DatasetExample").getOrCreate()

case class Person(name: String, value: Int)

val data = Seq(Person("Alice", 1), Person("Bob", 2), Person("Charlie", 3))
val ds = spark.createDataset(data)

ds.show()

এখানে Person ক্লাস ব্যবহার করে Dataset তৈরি করা হয়েছে, যা টাইপ সেফ এবং ডেটার ধরন সংরক্ষণ করে।

DataFrame বনাম Dataset

DataFrame এবং Dataset-এর মধ্যে কিছু মূল পার্থক্য রয়েছে:

টাইপ সেফটি: Dataset টাইপ সেফ, অর্থাৎ এটি কম্পাইল টাইমে ভুল চেক করে, তবে DataFrame শুধুমাত্র রান টাইমে ভুল চেক করে।
প্রোগ্রামিং ভাষা: DataFrame হলো এক ধরনের রপ্তানিকৃত API যা বিভিন্ন ভাষায় (Python, Scala, Java, R) সমর্থিত, যেখানে Dataset প্রধানত Scala এবং Java-তে ব্যবহৃত হয়।

Spark SQL এ DataFrame এবং Dataset ব্যবহারের সুবিধা

সহজ ডেটা ম্যানিপুলেশন: DataFrame এবং Dataset-এ ডেটা ফিল্টার, গ্রুপিং, অগ্রগতি করা খুব সহজ।
পারফরম্যান্স অপটিমাইজেশন: Catalyst Optimizer এবং Tungsten Project এর মাধ্যমে DataFrame এবং Dataset স্বয়ংক্রিয়ভাবে অপটিমাইজ হয়।
SQL কুয়েরি এক্সিকিউশন: DataFrame এবং Dataset SQL কোয়ারি লেখার ক্ষমতা প্রদান করে, যা ডেটা প্রসেসিং সহজ করে তোলে।

Spark SQL এ DataFrames এবং Datasets ব্যবহারের মাধ্যমে বিশাল ডেটাসেটগুলোর উপর কার্যকরী বিশ্লেষণ করা সম্ভব, এবং এটি ডেভেলপারদের জন্য খুবই সুবিধাজনক।

Content added By

Rezwan Siddiki Tamim

DataFrame কী এবং কীভাবে কাজ করে?

320

Spark SQL-এর একটি গুরুত্বপূর্ণ উপাদান হলো DataFrame। DataFrame হল একটি বিতরণকৃত ডেটা স্ট্রাকচার, যা SQL টেবিলের মতো দেখতে এবং আচরণ করে। এটি বড় ডেটাসেটের উপর কম্পিউটেশনাল কাজ সম্পাদন করতে ব্যবহৃত হয়। DataFrame তে প্রতিটি রো একটি ডেটা রেকর্ড এবং প্রতিটি কলাম একটি ভেরিয়েবল বা ফিচার (attribute) হিসেবে থাকে। এটি প্যান্ডাস (Pandas) DataFrame-এর মতো, কিন্তু Spark SQL-এর ডিস্ট্রিবিউটেড পরিবেশে কাজ করে, যা বড় ডেটাসেটের জন্য অনেক কার্যকরী।

DataFrame এর বৈশিষ্ট্যসমূহ

স্ট্রাকচারড ডেটা: DataFrame একটি স্ট্রাকচারড ডেটা স্টোরেজ, যেখানে প্রতিটি রো একটি ডেটা এন্ট্রি এবং প্রতিটি কলাম একটি নির্দিষ্ট ধরনের তথ্য ধারণ করে।
ডিস্ট্রিবিউটেড: DataFrame Spark-এ ডিস্ট্রিবিউটেডভাবে স্টোর হয়, অর্থাৎ এটি বড় ডেটাসেটের উপর কাজ করতে সক্ষম, এবং ডেটা বিভিন্ন নোডে ভাগ করা থাকে।
টাইপ সেফ: DataFrame টাইপ সেফ থাকে, যা মানে হচ্ছে যে এটি প্রোগ্রামিং ভাষার সঠিক টাইপ অনুসারে কাজ করে এবং টাইপ ভুল হলে কম্পাইল সময়েই ত্রুটি ধরা পড়ে।
SQL কোয়ারি: Spark SQL-এর DataFrame SQL কোয়ারি সমর্থন করে, তাই SQL জানলে খুব সহজেই বিভিন্ন কুয়েরি লেখা সম্ভব।
API সমর্থন: Spark SQL DataFrame API বিভিন্ন প্রোগ্রামিং ভাষায় উপলব্ধ, যেমন Scala, Java, Python, এবং R।

DataFrame কীভাবে কাজ করে?

Spark SQL-এ DataFrame ব্যবহার করা খুব সহজ, এবং এটি বেশ কিছু ধাপের মাধ্যমে কাজ করে:

১. DataFrame তৈরি করা

DataFrame তৈরি করতে বিভিন্ন উৎস থেকে ডেটা লোড করা যায়। সাধারণত, SparkContext বা SQLContext ব্যবহার করে DataFrame তৈরি করা হয়।

# Python উদাহরণ: CSV ফাইল থেকে DataFrame তৈরি
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()

df = spark.read.csv("data.csv", header=True, inferSchema=True)
df.show()  # DataFrame প্রদর্শন

২. DataFrame অপারেশন

DataFrame-এ বিভিন্ন ধরনের অপারেশন করা যায়, যেমন ফিল্টার, সোর্ট, গ্রুপ বাই, অ্যাগ্রিগেট, ইত্যাদি। উদাহরণস্বরূপ:

# DataFrame-এ ফিল্টার অপারেশন
filtered_df = df.filter(df["age"] > 30)
filtered_df.show()

৩. SQL কোয়ারি ব্যবহার

DataFrame-এর উপর SQL কোয়ারি চালানোর জন্য প্রথমে DataFrame-টি SQL টেবিল হিসেবে রেজিস্টার করতে হয়। এরপর SQL কোয়ারি লেখা যায়:

# DataFrame কে SQL টেবিল হিসেবে রেজিস্টার করা
df.createOrReplaceTempView("people")

# SQL কোয়ারি চালানো
result = spark.sql("SELECT * FROM people WHERE age > 30")
result.show()

৪. পারফরম্যান্স অপটিমাইজেশন

Spark SQL DataFrame অপারেশনগুলিতে একটি ইন-বিল্ট ক্যাটালিস্ট অপটিমাইজার থাকে যা SQL কোয়ারি ও অপারেশনগুলিকে অপটিমাইজ করে। এর মাধ্যমে ডেটার প্রক্রিয়াকরণ দ্রুত এবং কার্যকরী হয়।

DataFrame এর সুবিধা

পারফরম্যান্স: DataFrame-এর উপর অপটিমাইজেশন চলে, যেমন কোয়ারি ক্যাশিং এবং ইন-মেমরি প্রসেসিং, যার ফলে কম্পিউটেশন অনেক দ্রুত হয়।
স্কেলেবিলিটি: DataFrame-এ বিশাল ডেটাসেট পরিচালনা করা সম্ভব, কারণ এটি ডিস্ট্রিবিউটেড প্রসেসিংয়ের মাধ্যমে কাজ করে।
সহজ ব্যবহারের ইন্টারফেস: SQL কোয়ারি বা API ব্যবহার করে DataFrame-এর উপর কাজ করা খুবই সহজ এবং প্রোগ্রামারদের জন্য এটি খুব সুবিধাজনক।
বিভিন্ন ডেটা সোর্স সমর্থন: DataFrame বিভিন্ন ডেটা সোর্স (যেমন JSON, CSV, Parquet, HDFS, Hive) থেকে ডেটা লোড করতে পারে এবং সেগুলির সাথে কাজ করতে পারে।

সারাংশ

Spark SQL-এর DataFrame একটি শক্তিশালী ডেটা স্ট্রাকচার যা বড় ডেটাসেটের ওপর SQL এবং DataFrame API-এর মাধ্যমে কাজ করতে সহায়ক। এটি স্ট্রাকচারড ডেটার ওপর দ্রুত এবং স্কেলেবল কম্পিউটেশন করতে সক্ষম। DataFrame-এ বিভিন্ন ধরনের অপারেশন যেমন ফিল্টার, গ্রুপ বাই, অ্যাগ্রিগেট, এবং SQL কোয়ারি সহ বিভিন্ন কার্যক্রম করা যায়। Spark SQL-এর উন্নত অপটিমাইজেশন এবং ইন্টিগ্রেশন ফিচার DataFrame-কে আরও কার্যকরী করে তোলে।

Content added By

Rezwan Siddiki Tamim

DataFrame এবং Dataset এর মধ্যে পার্থক্য

392

Spark SQL এ DataFrame এবং Dataset দুটি গুরুত্বপূর্ণ ডেটা স্ট্রাকচার, যা বড় ডেটাসেটের উপর কাজ করার জন্য ব্যবহৃত হয়। যদিও DataFrame এবং Dataset দেখতে এবং কাজের দৃষ্টিকোণ থেকে কিছুটা একরকম মনে হতে পারে, তবে তাদের মধ্যে কিছু মৌলিক পার্থক্য রয়েছে। চলুন, Spark SQL এর DataFrame এবং Dataset এর মধ্যে পার্থক্যগুলো বিস্তারিতভাবে দেখি।

DataFrame এবং Dataset: সংজ্ঞা

DataFrame: DataFrame হলো একটি সুশৃঙ্খল ডেটা স্ট্রাকচার, যা টেবিল আকারে ডেটা ধারণ করে। এটি একটি স্পর্শকাতর এবং ইমিউটেবল (immutable) ডেটা স্ট্রাকচার এবং SQL-এর টেবিলের মতোই দেখতে হয়। DataFrame মূলত রিলেশনাল ডেটাবেসের টেবিলের মতো কাজ করে, এবং এটি Spark SQL এর মাধ্যমে ডেটা প্রসেস করতে ব্যবহৃত হয়। Spark-এর মধ্যে এটি একটি বিশেষ ধরনের RDD (Resilient Distributed Dataset), যার মাধ্যমে ডেটার ওপর SQL কোয়ারি চালানো যায়।
Dataset: Dataset হলো DataFrame-এর উন্নত সংস্করণ যা আরও শক্তিশালী এবং টাইপ সেফ। Dataset ব্যবহারকারীদের নির্দিষ্ট ডেটা টাইপের সাথে কাজ করতে দেয় এবং এটি DataFrame-এর মতোই ডিস্ট্রিবিউটেড ডেটা স্ট্রাকচার। Dataset Scala এবং Java API-তে ব্যবহৃত হয় এবং এটি আরও বেশি টাইপ সেফ এবং কম্পাইল টাইম চেকের মাধ্যমে কোডের ভুল কমিয়ে আনে।

DataFrame এবং Dataset এর মধ্যে পার্থক্য

টাইপ সেফটি (Type Safety)

DataFrame: DataFrame টাইপ সেফ নয়। এটি মূলত একটি অবজেক্ট যা সাধারণভাবে Row অবজেক্টের রূপে ডেটা ধারণ করে। তাই, DataFrame ব্যবহার করে কোডে ভুল চেক করা যায় না (কম্পাইল টাইম চেক নেই) এবং টাইপ সংক্রান্ত ত্রুটি রানটাইমে দেখা দিতে পারে।
Dataset: Dataset টাইপ সেফ। এটি স্কালা বা জাভা প্রোগ্রামিং ভাষার জেনেরিক টাইপ ব্যবহার করে, যা কম্পাইল টাইমে টাইপ চেকিং করে এবং রানটাইমে ভুল কমিয়ে দেয়।

পারফরম্যান্স

DataFrame: DataFrame Spark SQL-এর মূল শক্তি কারণ এটি Catalyst Optimizer এবং Tungsten-এ অটোমেটিক পারফরম্যান্স অপটিমাইজেশন ব্যবহার করে। DataFrame সাধারণত Dataset এর তুলনায় কিছুটা দ্রুত হতে পারে, কারণ এটি কম্পাইল টাইমে টাইপ চেকিংয়ের প্রয়োজন হয় না।
Dataset: Dataset DataFrame-এর তুলনায় কিছুটা ধীর হতে পারে, কারণ এটি টাইপ সেফ এবং আরও বেশি চেকিংয়ের প্রক্রিয়া থাকে। তবে এটি বেশি নিরাপদ এবং টাইপ ত্রুটি কমাতে সাহায্য করে।

API এর ব্যবহার

DataFrame: DataFrame API SQL কোয়ারির মাধ্যমে অথবা API ব্যবহারের মাধ্যমে ডেটা প্রসেসিং করতে সাহায্য করে। এটি সাধারণত Python, R এবং Scala API-তে ব্যবহৃত হয়।
Dataset: Dataset API সাধারণত Scala এবং Java-তে ব্যবহৃত হয়। এটি DataFrame এর মতোই কার্যকরী, তবে এতে আরও উন্নত ফিচার এবং টাইপ সেফটি থাকে। Dataset-এ আরও বেশি টাইপ সেফ কোড লেখার সুবিধা থাকে।

ফাংশনালিটি

DataFrame: DataFrame ব্যবহার করে শুধুমাত্র SQL কোয়ারি এবং রৈখিক ফাংশনালিটি (row-based operations) করা যায়। এটি DataFrame API-তে নির্দিষ্ট ডেটা রূপে কাজ করতে দেয়।
Dataset: Dataset এর মাধ্যমে ডেটার ওপর আরও জটিল এবং কাস্টম ফাংশনালিটি (functional programming) চালানো যায়। Dataset API তে উচ্চ মানের, টাইপ সেফ কোড লেখার সুবিধা থাকে।

কখন DataFrame এবং Dataset ব্যবহার করবেন?

DataFrame: আপনি যদি SQL কোয়ারি এবং ডেটার ওপর সিম্পল রৈখিক অপারেশন করতে চান এবং টাইপ সেফটির ব্যাপারে উদ্বিগ্ন না হন, তবে DataFrame একটি ভালো বিকল্প হতে পারে। এটি সাধারণত প্রপার SQL অপারেশন বা DataFrame অপারেশনগুলোর জন্য ব্যবহৃত হয়।
Dataset: আপনি যদি টাইপ সেফটি প্রাধান্য দিতে চান এবং কোডে কম্পাইল টাইম চেকিংয়ের সুবিধা নিতে চান, তবে Dataset ব্যবহার করা উচিত। বিশেষ করে যখন Scala বা Java তে কোড লেখছেন, তখন Dataset-এ আরও শক্তিশালী টাইপ সেফ এবং আরও উন্নত কার্যকারিতা থাকে।

সারাংশ

DataFrame এবং Dataset উভয়ই Spark SQL-এ ডেটা প্রসেসিং এর জন্য ব্যবহৃত হলেও, তাদের মধ্যে টাইপ সেফটি, পারফরম্যান্স এবং API ব্যবহারের দিক থেকে কিছু গুরুত্বপূর্ণ পার্থক্য রয়েছে। DataFrame সাধারণত SQL কোয়ারি এবং ডেটা অপারেশনের জন্য সহজ এবং দ্রুত হলেও, Dataset টাইপ সেফটি এবং জেনেরিক ফাংশনালিটি প্রদান করে, যা আরো সুনির্দিষ্ট এবং নিরাপদ কোড লেখার সুবিধা দেয়।

Content added By

Rezwan Siddiki Tamim

Dataset API এর ব্যবহার

317

Spark SQL এর Dataset API একটি অত্যন্ত শক্তিশালী এবং টাইপ সেফ ডেটা স্ট্রাকচার, যা DataFrame API এর উন্নত সংস্করণ হিসেবে কাজ করে। এটি Spark-এর উচ্চ পারফরম্যান্স এবং ডিস্ট্রিবিউটেড প্রসেসিং ক্ষমতাকে SQL কোয়ারি লেখার সঙ্গে একত্রিত করে, যেখানে আপনি ফাংশনাল প্রোগ্রামিংয়ের সুবিধা নিয়ে ডেটার ওপর কাজ করতে পারেন। Dataset API মূলত Java এবং Scala ব্যবহারকারীদের জন্য ডিজাইন করা হলেও, Python এবং R এও এর কিছু সুবিধা পাওয়া যায়।

Dataset API এর মাধ্যমে ডেটা প্রসেসিং করার সময় আপনি SQL কোয়ারি এবং টাইপ সেফ কোডিং দুটি একসঙ্গে ব্যবহার করতে পারবেন। এতে কোডিং সহজ হয় এবং টাইপ সেফটি রক্ষা থাকে।

Dataset API এর বৈশিষ্ট্য

টাইপ সেফ (Type-Safe) ডেটা স্ট্রাকচার

Dataset API টাইপ সেফ ডেটা স্ট্রাকচার প্রদান করে, যার মাধ্যমে ডেটা টাইপ সম্পর্কিত ভুলগুলো কমিয়ে আনা সম্ভব হয়। এটি Scala এবং Java তে ব্যবহারকারীদের উপকারে আসে, কারণ তারা কম্পাইল টাইমে ডেটার টাইপ চেক করতে পারেন। এতে কোডিংয়ের সময় টাইপ সম্পর্কিত ত্রুটি সহজেই সনাক্ত করা যায় এবং প্রোগ্রামিংয়ে ত্রুটি কম হয়।

DataFrame এবং Dataset এর সমন্বয়

Dataset API মূলত DataFrame API এর উপর ভিত্তি করে তৈরি। তবে, DataFrame হলো একটি অরগানাইজড ডেটা স্ট্রাকচার যা সাধারণত Row-based (যেমন টেবিল) ডেটাকে প্রতিনিধিত্ব করে, যেখানে Dataset আরও শক্তিশালী, কারণ এটি আপনাকে নির্দিষ্ট টাইপের অবজেক্ট নিয়ে কাজ করার সুযোগ দেয়। উদাহরণস্বরূপ, Scala বা Java তে ব্যবহারকারীরা নিজস্ব ক্লাস তৈরি করে Dataset API এর মাধ্যমে ডেটা প্রসেস করতে পারেন।

ফাংশনাল প্রোগ্রামিং

Dataset API ফাংশনাল প্রোগ্রামিং স্টাইলের সঙ্গে খুব ভালোভাবে কাজ করে। এটি ব্যবহারকারীদের ডেটা ট্রান্সফর্মেশন, ফিল্টারিং এবং অগ্রগতি নিয়ন্ত্রণের জন্য ল্যাম্বডা এক্সপ্রেশন এবং হাইয়ার অর্ডার ফাংশন (Higher-order Functions) ব্যবহারের সুবিধা দেয়। এর মাধ্যমে ডেটার উপর জটিল ট্রান্সফর্মেশন দ্রুত ও কার্যকরভাবে করা যায়।

ডিস্ট্রিবিউটেড প্রসেসিং

Dataset API Spark-এর ডিস্ট্রিবিউটেড প্রসেসিং ক্ষমতা ব্যবহার করে বড় ডেটাসেট দ্রুত এবং স্কেলেবলি প্রসেস করতে সক্ষম। এটি ইন-মেমরি কম্পিউটেশন এবং ডিস্ট্রিবিউটেড স্টোরেজ ব্যবস্থার মাধ্যমে কাজ করে, যা ডেটা সায়েন্স এবং বিগ ডেটা অ্যানালাইটিক্সের জন্য অত্যন্ত গুরুত্বপূর্ণ।

কাস্টম ট্রান্সফরমেশন এবং অ্যাকশন

Dataset API কাস্টম ট্রান্সফরমেশন এবং অ্যাকশন সমর্থন করে। এর মাধ্যমে ব্যবহারকারীরা তাদের নিজস্ব ট্রান্সফরমেশন ফাংশন তৈরি করতে পারেন, যা ডেটা প্রসেসিং আরো নমনীয় এবং কাস্টমাইজেবল করে তোলে।

Dataset API ব্যবহার কিভাবে করবেন?

Dataset API এর সাহায্যে কাজ করতে হলে আপনাকে প্রথমে একটি Dataset তৈরি করতে হবে এবং তারপর তার উপর ট্রান্সফর্মেশন ও অ্যাকশন করতে হবে। এখানে Dataset API ব্যবহার করার একটি সাধারণ উদাহরণ দেওয়া হলো:

১. Dataset তৈরি করা

import org.apache.spark.sql.{SparkSession, Dataset}

// SparkSession তৈরি
val spark = SparkSession.builder.appName("DatasetExample").getOrCreate()

// কিছু স্যাম্পল ডেটা তৈরি
case class Person(name: String, age: Int)

val people = Seq(
  Person("John", 28),
  Person("Alice", 23),
  Person("Bob", 35)
)

// Dataset তৈরি করা
val peopleDataset: Dataset[Person] = spark.createDataset(people)

২. Dataset এ ট্রান্সফরমেশন প্রয়োগ

Dataset API ব্যবহার করে ডেটার ওপর বিভিন্ন ট্রান্সফরমেশন করা যেতে পারে। উদাহরণস্বরূপ, একটি ফিল্টার ট্রান্সফরমেশন:

// ফিল্টার প্রয়োগ
val filteredDataset = peopleDataset.filter(person => person.age > 25)
filteredDataset.show()

এখানে, filter ট্রান্সফরমেশন দিয়ে আমরা শুধুমাত্র ২৫ বছরের বেশি বয়সী ব্যক্তিদের নির্বাচিত করেছি।

৩. Dataset এ অ্যাকশন প্রয়োগ

Dataset এর উপর বিভিন্ন অ্যাকশনও প্রয়োগ করা যায়, যেমন collect() বা show()।

// collect() ব্যবহার করে ডেটা অ্যাক্সেস করা
val result = filteredDataset.collect()
result.foreach(println)

৪. কাস্টম ট্রান্সফরমেশন

Dataset API তে আপনি কাস্টম ট্রান্সফরমেশনও তৈরি করতে পারেন, যেমন একটি ফাংশন ব্যবহার করে নামের প্রথম অক্ষর ক্যাপিটালাইজ করা:

// কাস্টম ট্রান্সফরমেশন
val capitalizedDataset = peopleDataset.map(person => person.copy(name = person.name.capitalize))
capitalizedDataset.show()

Dataset API এর সুবিধা

উচ্চ কার্যকারিতা

Dataset API এর মাধ্যমে Spark SQL আরও কার্যকরী এবং দ্রুত হয়ে ওঠে, কারণ এটি কম্পাইল টাইমে টাইপ চেকিংয়ের সুবিধা দেয় এবং পারফরম্যান্স অপটিমাইজেশন ব্যবস্থাগুলোর সাথে সমন্বয় করে।

টাইপ সেফটি

Dataset API টাইপ সেফটি প্রদান করে, যা ডেটার সম্পর্কিত ত্রুটি কমিয়ে আনে এবং প্রোগ্রামিংয়ের সময় ভুল সনাক্তকরণ সহজ করে।

কোডিংয়ের সহজতা

Dataset API ফাংশনাল প্রোগ্রামিং স্টাইল ব্যবহার করে, তাই কোড লেখাটা আরও সহজ এবং পরিষ্কার হয়ে ওঠে। এতে করে ডেটার উপর জটিল ট্রান্সফরমেশন দ্রুত এবং কম কোডে করা যায়।

সারাংশ

Spark SQL এর Dataset API একটি শক্তিশালী এবং টাইপ সেফ ডেটা স্ট্রাকচার, যা ডিস্ট্রিবিউটেড ডেটা প্রসেসিংয়ে অত্যন্ত কার্যকরী। এটি ব্যবহারকারীদের SQL কোয়ারির সাথে ফাংশনাল প্রোগ্রামিংয়ের সুবিধা দেয়, ডেটার উপর কাস্টম ট্রান্সফরমেশন এবং অ্যাকশন প্রয়োগ করতে সহায়তা করে। Dataset API এর সাহায্যে আপনি বড় ডেটাসেট দ্রুত, কার্যকরী এবং টাইপ সেফভাবে প্রসেস করতে পারেন, যা ডেটা সায়েন্স, অ্যানালাইটিক্স, এবং অন্যান্য ডেটা অ্যাপ্লিকেশনগুলির জন্য অপরিহার্য।

Content added By

Rezwan Siddiki Tamim

DataFrame এবং Dataset এর মধ্যে Transformation এবং Action

316

Spark SQL-এর DataFrame এবং Dataset দুটি প্রধান ডেটা স্ট্রাকচার, যা ব্যবহারকারীদের ডিস্ট্রিবিউটেড ডেটা প্রসেস করতে সহায়তা করে। DataFrame এবং Dataset উভয়ই Spark-এর প্রধান ইন্টারফেস হিসেবে কাজ করে এবং তাদের মধ্যে দুই ধরনের অপারেশন করা যায়: Transformation এবং Action। চলুন, DataFrame এবং Dataset-এর মধ্যে Transformation এবং Action এর পার্থক্য এবং ব্যবহার সম্পর্কে বিস্তারিত জানি।

DataFrame এবং Dataset

DataFrame হলো একটি অর্গানাইজড ডেটা স্ট্রাকচার, যা RDD-এর উপর ভিত্তি করে তৈরি, কিন্তু এতে ট্যাবুলার ডেটা, কলাম এবং স্কিমা থাকে। এটি একটি টেবিলের মতো কাজ করে, যেখানে এক বা একাধিক কলাম থাকে এবং প্রতিটি কলামে ডেটা থাকে।

Dataset হল DataFrame-এর একটি টাইপ সেফ ভার্সন, যা একটি ফর্মাল টাইপ (যেমন Java, Scala) ব্যবহার করে ডেটা হ্যান্ডলিং করতে পারে। Dataset API Type Safety প্রদান করে, যা DataFrame-এর তুলনায় আরো বেশি নিয়ন্ত্রিত এবং ত্রুটি চেক করার সুযোগ দেয়।

Transformation এবং Action

Spark SQL-এ Transformation এবং Action দুটি গুরুত্বপূর্ণ কনসেপ্ট, যা DataFrame এবং Dataset এর উপর কাজ করতে ব্যবহৃত হয়।

Transformation

Transformation হলো এমন অপারেশন যা DataFrame বা Dataset-এর উপরে কাজ করে এবং নতুন একটি DataFrame বা Dataset তৈরি করে। Transformation গুলি লিনিয়ার এবং লেজি (lazy) হয়, অর্থাৎ তারা তখন পর্যন্ত কার্যকরী হয় না যতক্ষণ না Action অপারেশন চালানো না হয়। Spark এই Transformation গুলি সিস্টেমে অপটিমাইজ করে এবং শুধুমাত্র যখন Action অপারেশন কার্যকরী হয় তখন এটি এক্সিকিউট করা হয়।

Map: DataFrame বা Dataset এর প্রতিটি উপাদানের ওপর নির্দিষ্ট কোনো কাজ করতে ব্যবহৃত হয়।
```
df_transformed = df.map(lambda x: x + 1)
```
Filter: DataFrame বা Dataset থেকে নির্দিষ্ট শর্ত পূরণকারী রেকর্ডগুলি বাছাই করতে ব্যবহৃত হয়।
```
df_filtered = df.filter(df['age'] > 30)
```
Select: নির্দিষ্ট কলাম নির্বাচন করতে ব্যবহৃত হয়।
```
df_selected = df.select("name", "age")
```
Join: দুটি DataFrame বা Dataset একসাথে যুক্ত করতে ব্যবহৃত হয়।
```
df_joined = df1.join(df2, df1.id == df2.id)
```
GroupBy: DataFrame বা Dataset কে নির্দিষ্ট একটি কলাম অনুযায়ী গ্রুপ করতে ব্যবহৃত হয়।
```
df_grouped = df.groupBy("age").count()
```

Action

Action হলো এমন অপারেশন যা DataFrame বা Dataset থেকে একটি ফলাফল ফেরত দেয় বা একটি কার্যকরী প্রক্রিয়া সম্পন্ন করে। Action অপারেশন এক্সিকিউট হওয়ার পরেই Transformation গুলি বাস্তবায়িত হয়। Action সাধারণত ডেটা রিটার্ন করতে ব্যবহার করা হয়, যেমন ডেটা প্রিন্ট করা, একটি ফাইল সেভ করা বা কোনো পরিসংখ্যান হিসাব করা।

Show: DataFrame বা Dataset এর কিছু সারি দেখতে ব্যবহৃত হয়।
```
df.show(5)
```
Collect: DataFrame বা Dataset এর সমস্ত ডেটা একটি ক্লায়েন্টে সংগ্রহ করতে ব্যবহৃত হয়।
```
data = df.collect()
```
Count: DataFrame বা Dataset এ মোট রেকর্ডের সংখ্যা বের করতে ব্যবহৃত হয়।
```
count = df.count()
```
Reduce: একাধিক মানের উপর একটি ফাংশন প্রয়োগ করে একটি একক মানে রিডিউস করতে ব্যবহৃত হয়।
```
result = df.rdd.reduce(lambda x, y: x + y)
```
Save: DataFrame বা Dataset কে একটি ফাইল সিস্টেমে সেভ করতে ব্যবহৃত হয়।
```
df.write.csv("output.csv")
```

DataFrame এবং Dataset এর মধ্যে পার্থক্য

Type Safety: Dataset হল টাইপ সেফ, যা কম্পাইল টাইমে ত্রুটি চেক করতে সাহায্য করে, কিন্তু DataFrame-এ টাইপ সেফটি নেই এবং এটি কেবল ডাইনামিক টাইপড।
API: DataFrame এবং Dataset-এর API একে অপরের উপর নির্ভরশীল। Dataset হল DataFrame-এর টাইপ সেফ ভার্সন, যেখানে আপনি Java/Scala ভাষায় নির্দিষ্ট টাইপের ব্যবহার করতে পারেন।
পারফরম্যান্স: DataFrame এবং Dataset এর মধ্যে পারফরম্যান্সের দিক থেকে তেমন কোনো পার্থক্য নেই, কারণ উভয়ই একই Catalyst Optimizer এবং Tungsten প্রকল্পের মাধ্যমে অপটিমাইজ হয়।

সারাংশ

Spark SQL-এ Transformation এবং Action দুইটি গুরুত্বপূর্ণ অপারেশন যা DataFrame এবং Dataset-এর ওপর কার্যকরী হয়। Transformation গুলি ডেটাকে পরিবর্তন করে এবং নতুন DataFrame বা Dataset তৈরি করে, যখন Action গুলি ডেটার ওপর কার্যকরী হয়ে ফাইনাল আউটপুট বা রেজাল্ট তৈরি করে। DataFrame এবং Dataset উভয়ই Spark SQL-এ ডিস্ট্রিবিউটেড ডেটা প্রসেসিং এবং অ্যানালাইসিসের জন্য ব্যবহৃত হয়, তবে Dataset বেশি টাইপ সেফ এবং বেশি নিয়ন্ত্রিত।

Content added By

Rezwan Siddiki Tamim

Spark SQL এর পরিচিতি Spark SQL Installation এবং Setup Spark SQL Queries Data Sources এবং Data Loading DataFrames এর সাথে কাজ করা

DataFrames এবং Datasets গাইড ও নোট

DataFrame

DataFrame এর বৈশিষ্ট্যসমূহ:

উদাহরণ:

Dataset

Dataset এর বৈশিষ্ট্যসমূহ:

উদাহরণ:

DataFrame বনাম Dataset

Spark SQL এ DataFrame এবং Dataset ব্যবহারের সুবিধা

DataFrame কী এবং কীভাবে কাজ করে?

DataFrame এর বৈশিষ্ট্যসমূহ

DataFrame কীভাবে কাজ করে?

১. DataFrame তৈরি করা

২. DataFrame অপারেশন

৩. SQL কোয়ারি ব্যবহার

৪. পারফরম্যান্স অপটিমাইজেশন

DataFrame এর সুবিধা

সারাংশ

DataFrame এবং Dataset এর মধ্যে পার্থক্য

DataFrame এবং Dataset: সংজ্ঞা

DataFrame এবং Dataset এর মধ্যে পার্থক্য

টাইপ সেফটি (Type Safety)

পারফরম্যান্স

API এর ব্যবহার

ফাংশনালিটি

কখন DataFrame এবং Dataset ব্যবহার করবেন?

সারাংশ

Dataset API এর ব্যবহার

Dataset API এর বৈশিষ্ট্য

টাইপ সেফ (Type-Safe) ডেটা স্ট্রাকচার

DataFrame এবং Dataset এর সমন্বয়

ফাংশনাল প্রোগ্রামিং

ডিস্ট্রিবিউটেড প্রসেসিং

কাস্টম ট্রান্সফরমেশন এবং অ্যাকশন

Dataset API ব্যবহার কিভাবে করবেন?

১. Dataset তৈরি করা

২. Dataset এ ট্রান্সফরমেশন প্রয়োগ

৩. Dataset এ অ্যাকশন প্রয়োগ

৪. কাস্টম ট্রান্সফরমেশন

Dataset API এর সুবিধা

উচ্চ কার্যকারিতা

টাইপ সেফটি

কোডিংয়ের সহজতা

সারাংশ

DataFrame এবং Dataset এর মধ্যে Transformation এবং Action

DataFrame এবং Dataset

Transformation এবং Action

Transformation

Action

DataFrame এবং Dataset এর মধ্যে পার্থক্য

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!