Spark SQL Queries গাইড ও নোট

Big Data and Analytics - স্পার্ক এসকিউএল (Spark SQL)

354

Spark SQL এর মাধ্যমে আপনি SQL কোয়ারি ব্যবহার করে ডেটা প্রক্রিয়া এবং বিশ্লেষণ করতে পারেন। Spark SQL সাধারণ SQL কোয়ারি সমর্থন করে, তবে এটি Spark এর ডিস্ট্রিবিউটেড কম্পিউটিং ক্ষমতা ব্যবহার করে। নিচে Spark SQL-এ কিছু সাধারণ SQL কোয়ারির উদাহরণ দেওয়া হলো, যা বিভিন্ন ডেটাসেটের সাথে কাজ করতে সহায়তা করে।

Spark SQL-এ SQL কোয়ারি লেখা

Spark SQL-এ SQL কোয়ারি লেখার জন্য আপনাকে প্রথমে SparkSession তৈরি করতে হবে এবং DataFrame বা Dataset থেকে SQL কোয়ারি চালানোর জন্য DataFrame কে টেবিল হিসেবে রেজিস্টার করতে হবে। এরপর আপনি সাধারণ SQL কোয়ারি চালাতে পারেন।

SparkSession তৈরি করা:

from pyspark.sql import SparkSession

# SparkSession তৈরি
spark = SparkSession.builder \
    .appName("Spark SQL Example") \
    .getOrCreate()

DataFrame কে SQL টেবিল হিসেবে রেজিস্টার করা

# উদাহরণ DataFrame তৈরি করা
data = [("Alice", 1), ("Bob", 2), ("Charlie", 3)]
df = spark.createDataFrame(data, ["Name", "Value"])

# DataFrame কে SQL টেবিল হিসেবে রেজিস্টার করা
df.createOrReplaceTempView("people")

এখন আপনি people টেবিলটি ব্যবহার করে SQL কোয়ারি চালাতে পারবেন।

Spark SQL-এ সাধারণ SQL কোয়ারি উদাহরণ

১. SELECT কোয়ারি

# সব রেকর্ড SELECT করা
spark.sql("SELECT * FROM people").show()

২. WHERE ক্লজ ব্যবহার করা

# কিছু শর্ত সাপেক্ষে ডেটা ফিল্টার করা
spark.sql("SELECT * FROM people WHERE Value > 1").show()

৩. ORDER BY কোয়ারি

# একটি কলাম দ্বারা ডেটা সাজানো
spark.sql("SELECT * FROM people ORDER BY Value DESC").show()

৪. LIMIT কোয়ারি

# একটি সীমিত সংখ্যক রেকর্ড নির্বাচন করা
spark.sql("SELECT * FROM people LIMIT 2").show()

৫. GROUP BY কোয়ারি

# GROUP BY ব্যবহার করে ডেটা গ্রুপ করা
data = [("Alice", "Math", 80), ("Bob", "Math", 90), ("Alice", "English", 85)]
df = spark.createDataFrame(data, ["Name", "Subject", "Score"])
df.createOrReplaceTempView("students")

spark.sql("SELECT Name, AVG(Score) FROM students GROUP BY Name").show()

৬. JOIN কোয়ারি

# দুইটি DataFrame এর মধ্যে JOIN করা
data1 = [("Alice", 1), ("Bob", 2)]
df1 = spark.createDataFrame(data1, ["Name", "Value"])

data2 = [("Alice", "New York"), ("Bob", "California")]
df2 = spark.createDataFrame(data2, ["Name", "City"])

df1.createOrReplaceTempView("df1")
df2.createOrReplaceTempView("df2")

spark.sql("SELECT df1.Name, df1.Value, df2.City FROM df1 INNER JOIN df2 ON df1.Name = df2.Name").show()

৭. Aggregations (SUM, COUNT, AVG, MIN, MAX)

# ডেটার ওপর Aggregation ফাংশন ব্যবহার
spark.sql("SELECT Name, COUNT(*) FROM people GROUP BY Name").show()

৮. Subquery ব্যবহার করা

# Subquery এর মাধ্যমে ডেটা ফিল্টার করা
spark.sql("SELECT * FROM people WHERE Value IN (SELECT Value FROM people WHERE Name = 'Bob')").show()

Spark SQL-এর পারফরম্যান্স অপটিমাইজেশন

Spark SQL Catalyst Optimizer ব্যবহার করে কোয়ারি অপটিমাইজেশন স্বয়ংক্রিয়ভাবে সম্পন্ন করে, যার ফলে SQL কোয়ারি অনেক দ্রুত এবং কার্যকরী হয়। এটি কোয়ারি রূপান্তর, লগিক্যাল অপটিমাইজেশন এবং ফিজিক্যাল অপটিমাইজেশন করে।

Query Caching: Spark SQL কোয়ারি ক্যাশিং সমর্থন করে, যার মাধ্যমে একই কোয়ারি পুনরায় চালানোর সময় ফলাফল দ্রুত পাওয়া যায়।
Predicate Pushdown: SQL কোয়ারির WHERE ক্লজে থাকা শর্তগুলো ডেটা সোর্সে প্রেরণ করা হয়, যার ফলে শুধুমাত্র প্রয়োজনীয় ডেটা লোড হয়।

সারাংশ

Spark SQL-এ SQL কোয়ারি ব্যবহার করে ডেটা বিশ্লেষণ ও প্রক্রিয়া করা অনেক সহজ এবং কার্যকর। Spark SQL সমর্থন করে SELECT, WHERE, GROUP BY, JOIN, এবং অন্যান্য SQL ফিচার, যা SQL কোয়ারি লেখার অভিজ্ঞতা আরও উন্নত করে। Catalyst Optimizer এবং অন্যান্য অপটিমাইজেশন ফিচার Spark SQL-এর পারফরম্যান্স উন্নত করতে সাহায্য করে।

Content added By

Rezwan Siddiki Tamim

Spark SQL এ SQL Queries চালানো

332

Spark SQL একটি অত্যন্ত শক্তিশালী টুল যা আপনাকে SQL কোয়ারি ব্যবহার করে ডেটার ওপর বিভিন্ন ধরনের অপারেশন করতে দেয়। Spark SQL SQL কোয়ারি প্রক্রিয়া করার জন্য দুটি মূল পদ্ধতি ব্যবহার করতে দেয়: SQL Queries এবং DataFrame API। এখানে আমরা দেখবো কিভাবে Spark SQL এর মধ্যে SQL Queries চালানো হয়।

Spark SQL এ SQL Queries চালানোর জন্য প্রস্তুতি

Spark SQL এর মাধ্যমে SQL কোয়ারি চালানোর জন্য প্রথমে একটি SparkSession তৈরি করতে হবে। SparkSession হল Spark SQL-এর জন্য প্রধান এন্ট্রি পয়েন্ট, যা SQL কোয়ারি এক্সিকিউট করার জন্য ব্যবহৃত হয়।

SparkSession তৈরি করা:

from pyspark.sql import SparkSession

# SparkSession তৈরি
spark = SparkSession.builder \
    .appName("Spark SQL Example") \
    .getOrCreate()

Spark SQL এ SQL Queries চালানো

Spark SQL এ SQL কোয়ারি চালানোর জন্য, প্রথমে DataFrame বা টেবিল হিসেবে ডেটা লোড করতে হবে। একবার ডেটা লোড হয়ে গেলে, sql() মেথডের মাধ্যমে SQL কোয়ারি চালানো যায়।

SQL কোয়ারি চালানোর উদাহরণ

# টেবিল তৈরি করার জন্য DataFrame তৈরি
data = [("John", 28), ("Doe", 22), ("Alice", 30), ("Bob", 25)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)

# DataFrame কে টেম্পোরারি ভিউ হিসেবে রেজিস্টার করা
df.createOrReplaceTempView("people")

# SQL কোয়ারি চালানো
result = spark.sql("SELECT * FROM people WHERE Age > 25")

# ফলাফল দেখানো
result.show()

এখানে, createOrReplaceTempView() মেথডটি DataFrame কে একটি টেম্পোরারি SQL ভিউ হিসেবে রেজিস্টার করে, যাতে পরবর্তীতে SQL কোয়ারি চালানো যায়। তারপর spark.sql() মেথডের মাধ্যমে SQL কোয়ারি চালানো হয়েছে এবং show() মেথড ব্যবহার করে ফলাফল প্রদর্শন করা হয়েছে।

SQL কোয়ারির সাথে JOIN, GROUP BY, এবং অন্যান্য অপারেশন

Spark SQL-এর মাধ্যমে আপনি সাধারণ SQL কোয়ারি যেমন JOIN, GROUP BY, ORDER BY, এবং HAVING ইত্যাদি চালাতে পারেন। এই অপারেশনগুলো SQL এর মৌলিক অংশ এবং ডেটার ওপর জটিল বিশ্লেষণ করতে সাহায্য করে।

JOIN অপারেশন:

# অন্য একটি DataFrame তৈরি করা
data2 = [("John", "USA"), ("Doe", "Canada"), ("Alice", "UK"), ("Bob", "Australia")]
columns2 = ["Name", "Country"]
df2 = spark.createDataFrame(data2, columns2)

# DataFrame কে টেম্পোরারি ভিউ হিসেবে রেজিস্টার করা
df2.createOrReplaceTempView("people_country")

# SQL কোয়ারি দিয়ে JOIN অপারেশন চালানো
result_join = spark.sql("""
SELECT p.Name, p.Age, c.Country
FROM people p
JOIN people_country c
ON p.Name = c.Name
""")

# ফলাফল দেখানো
result_join.show()

এই উদাহরণে, দুটি DataFrame এর মধ্যে Name কলাম ব্যবহার করে JOIN অপারেশন করা হয়েছে।

GROUP BY অপারেশন:

# SQL কোয়ারি দিয়ে GROUP BY অপারেশন চালানো
result_group_by = spark.sql("""
SELECT Age, COUNT(*) as Count
FROM people
GROUP BY Age
""")

# ফলাফল দেখানো
result_group_by.show()

এখানে, GROUP BY অপারেশন ব্যবহার করে Age অনুসারে ডেটা গ্রুপ করা হয়েছে এবং প্রতিটি গ্রুপের জন্য কাউন্ট করা হয়েছে।

SQL কোয়ারি এক্সিকিউশন অপটিমাইজেশন

Spark SQL কোয়ারি অপটিমাইজেশনের জন্য Catalyst Optimizer ব্যবহার করে। Catalyst Optimizer SQL কোয়ারির পারফরম্যান্স উন্নত করতে বিভিন্ন অপটিমাইজেশন পদ্ধতি ব্যবহার করে। এই অপটিমাইজেশনগুলির মধ্যে রয়েছে:

ফিল্টার পুশডাউন (Filter Pushdown): যেখানে সম্ভব, SQL কোয়ারি অপটিমাইজার ডেটা সোর্সে ফিল্টার অপারেশন প্রয়োগ করে, যাতে শুধুমাত্র প্রয়োজনীয় ডেটা লোড হয়।
প্রক্সি অপটিমাইজেশন (Projection Pushdown): এতে কেবলমাত্র প্রয়োজনীয় কলামগুলি সিলেক্ট করা হয়।
জয়েন অপটিমাইজেশন (Join Optimization): Spark SQL বিভিন্ন ধরনের জয়েন অপটিমাইজেশন সমর্থন করে, যেমন Broadcast Join, Shuffle Join ইত্যাদি।

সারাংশ

Spark SQL একটি শক্তিশালী টুল যা SQL কোয়ারির মাধ্যমে ডেটা প্রসেসিং এবং বিশ্লেষণকে সহজ ও দ্রুত করে তোলে। Spark SQL এ SQL কোয়ারি চালানোর জন্য প্রথমে একটি SparkSession তৈরি করতে হয় এবং এরপর DataFrame বা টেবিলকে SQL ভিউ হিসেবে রেজিস্টার করে SQL কোয়ারি চালানো যায়। Spark SQL বেশিরভাগ SQL অপারেশন যেমন JOIN, GROUP BY, ORDER BY, HAVING সমর্থন করে এবং Catalyst Optimizer এর মাধ্যমে কোয়ারি পারফরম্যান্স অপটিমাইজেশন করে থাকে।

Content added By

Rezwan Siddiki Tamim

SELECT, WHERE, GROUP BY, এবং HAVING Clauses

244

Spark SQL ব্যবহারকারীদের SQL কোয়ারি লেখার মাধ্যমে ডেটা প্রসেস করার সুবিধা দেয়। SQL-এ যেসব স্ট্যান্ডার্ড ক্লজ (clauses) রয়েছে, Spark SQL-এ সেগুলি সমর্থিত। এর মধ্যে SELECT, WHERE, GROUP BY, এবং HAVING ক্লজ অন্যতম। চলুন, এই ক্লজগুলো কীভাবে Spark SQL-এ ব্যবহার করা হয় তা দেখি।

SELECT ক্লজ

SELECT ক্লজ হল SQL কোয়ারির প্রধান অংশ, যা ডেটাবেস থেকে ডেটা নির্বাচন করার জন্য ব্যবহৃত হয়। Spark SQL-এ SELECT ক্লজ ব্যবহার করে একটি বা একাধিক কলাম নির্বাচন করা যায়।

SELECT উদাহরণ:

# Spark SQL দিয়ে SELECT কোয়ারি
spark.sql("SELECT column1, column2 FROM table_name").show()

এখানে:

column1, column2: নির্বাচিত কলামগুলো।
table_name: যে টেবিল বা DataFrame থেকে ডেটা নির্বাচন করা হবে।

SELECT সব কলাম নির্বাচন করতে:

spark.sql("SELECT * FROM table_name").show()

এটি টেবিলের সব কলামকে নির্বাচন করবে।

WHERE ক্লজ

WHERE ক্লজ ডেটা ফিল্টার করার জন্য ব্যবহৃত হয়। এটি SQL কোয়ারির মধ্যে শর্ত যুক্ত করতে সাহায্য করে, যার মাধ্যমে শুধু নির্দিষ্ট শর্ত পূর্ণ করা রেকর্ডগুলোই নির্বাচিত হয়।

WHERE উদাহরণ:

# WHERE ক্লজ দিয়ে ফিল্টার করা
spark.sql("SELECT * FROM table_name WHERE column1 > 100").show()

এখানে, column1 > 100 শর্তের অধীনে ডেটা ফিল্টার করা হয়েছে।

GROUP BY ক্লজ

GROUP BY ক্লজ ডেটাকে একটি নির্দিষ্ট কলাম বা একাধিক কলামের ভিত্তিতে গ্রুপ করার জন্য ব্যবহৃত হয়। এটি সাধারণত অ্যাগ্রিগেট ফাংশনের (যেমন COUNT, AVG, SUM) সঙ্গে ব্যবহৃত হয়।

GROUP BY উদাহরণ:

# GROUP BY ব্যবহার করে গ্রুপিং
spark.sql("SELECT column1, COUNT(*) FROM table_name GROUP BY column1").show()

এখানে, column1 এর ভিত্তিতে ডেটা গ্রুপ করা হয়েছে এবং প্রতিটি গ্রুপে কতটি রেকর্ড রয়েছে তা গণনা করা হয়েছে।

GROUP BY-এ একাধিক কলাম:

spark.sql("SELECT column1, column2, SUM(column3) FROM table_name GROUP BY column1, column2").show()

এটি column1 এবং column2 এর ভিত্তিতে ডেটা গ্রুপ করে এবং প্রতিটি গ্রুপের জন্য column3 এর মোট (sum) গণনা করবে।

HAVING ক্লজ

HAVING ক্লজ হল একটি শর্ত যেখানে আপনি GROUP BY এর পরে গ্রুপ করা ডেটার উপর শর্ত প্রয়োগ করতে পারেন। এটি WHERE ক্লজের মতো কাজ করে, তবে এটি গ্রুপ করা ডেটার জন্য ব্যবহৃত হয়।

HAVING উদাহরণ:

# HAVING ক্লজ ব্যবহার করে গ্রুপের উপর শর্ত প্রয়োগ করা
spark.sql("SELECT column1, COUNT(*) FROM table_name GROUP BY column1 HAVING COUNT(*) > 10").show()

এখানে, column1 এর ভিত্তিতে ডেটা গ্রুপ করা হয়েছে এবং তারপর শুধুমাত্র সেগুলিকে নির্বাচন করা হয়েছে যেগুলোর মধ্যে ১০টির বেশি রেকর্ড রয়েছে।

Spark SQL এ SELECT, WHERE, GROUP BY এবং HAVING ক্লজের সংক্ষিপ্ত ব্যাখ্যা:

SELECT: এটি ডেটাবেস থেকে নির্দিষ্ট কলাম বা সব কলাম নির্বাচন করতে ব্যবহৃত হয়।
WHERE: ডেটাকে শর্তের ভিত্তিতে ফিল্টার করতে ব্যবহৃত হয়।
GROUP BY: ডেটাকে নির্দিষ্ট কলামের ভিত্তিতে গ্রুপ করতে ব্যবহৃত হয়, সাধারণত অ্যাগ্রিগেট ফাংশনের সঙ্গে।
HAVING: GROUP BY ক্লজের পরে গ্রুপ করা ডেটার উপর শর্ত প্রয়োগ করতে ব্যবহৃত হয়।

সারাংশ

Spark SQL-এ SELECT, WHERE, GROUP BY, এবং HAVING ক্লজ ব্যবহার করে ডেটাকে নির্বাচন, ফিল্টার, গ্রুপ এবং শর্ত দিয়ে আরও বিশ্লেষণ করা যায়। এই ক্লজগুলো SQL-এর গুরুত্বপূর্ণ অংশ, যা ডেটাবেস থেকে কার্যকরভাবে তথ্য বের করার জন্য ব্যবহৃত হয়। Spark SQL এর মাধ্যমে আপনি বড় ডেটাসেটের উপর সহজেই এই ক্লজগুলো ব্যবহার করে ডেটা বিশ্লেষণ করতে পারেন।

Content added By

Rezwan Siddiki Tamim

Joins (INNER, LEFT, RIGHT, FULL) এর ব্যবহার

337

Spark SQL-এর মাধ্যমে বিভিন্ন ডেটাসেটের মধ্যে সম্পর্ক স্থাপন করতে JOIN অপারেটর ব্যবহার করা হয়। JOIN অপারেটর ডেটা সংযুক্তির জন্য ব্যবহৃত হয় এবং এটি SQL কোয়ারির একটি গুরুত্বপূর্ণ অংশ। Spark SQL-এ বিভিন্ন ধরনের JOIN অপারেটর আছে, যার মধ্যে সবচেয়ে সাধারণ হলো INNER JOIN, LEFT JOIN, RIGHT JOIN, এবং FULL JOIN। চলুন, এদের ব্যবহার এবং পার্থক্য সম্পর্কে বিস্তারিত আলোচনা করি।

INNER JOIN

INNER JOIN একটি ডেটাসেটের মধ্যে দুটি টেবিল বা DataFrame-এর এমন রেকর্ডগুলো সংগ্রহ করে, যেগুলোর মধ্যে নির্দিষ্ট শর্ত মেলে। যদি দুটি টেবিলের মধ্যে কোনো রেকর্ডের মান মেলে না, তাহলে সেই রেকর্ড ফলাফলে অন্তর্ভুক্ত হবে না।

উদাহরণ:

# প্রথম DataFrame
data1 = [("John", "HR"), ("Alice", "Finance"), ("Bob", "IT")]
df1 = spark.createDataFrame(data1, ["Name", "Department"])

# দ্বিতীয় DataFrame
data2 = [("John", "Manager"), ("Alice", "Analyst")]
df2 = spark.createDataFrame(data2, ["Name", "Position"])

# INNER JOIN ব্যবহার করা
df_inner_join = df1.join(df2, "Name", "inner")
df_inner_join.show()

আউটপুট:

+-----+----------+--------+
| Name|Department|Position|
+-----+----------+--------+
| John|        HR| Manager|
|Alice|   Finance|  Analyst|
+-----+----------+--------+

LEFT JOIN (LEFT OUTER JOIN)

LEFT JOIN বা LEFT OUTER JOIN একটি টেবিলের সমস্ত রেকর্ড এবং দ্বিতীয় টেবিলের মিল খুঁজে পাওয়া রেকর্ডগুলোকে একত্রিত করে। যদি দ্বিতীয় টেবিলের সাথে কোনো মেলানো রেকর্ড না থাকে, তবে প্রথম টেবিলের রেকর্ডগুলো সহ NULL মান দেখানো হয়।

উদাহরণ:

# LEFT JOIN ব্যবহার করা
df_left_join = df1.join(df2, "Name", "left")
df_left_join.show()

আউটপুট:

+-----+----------+--------+
| Name|Department|Position|
+-----+----------+--------+
| John|        HR| Manager|
|Alice|   Finance|  Analyst|
|  Bob|       IT|    null|
+-----+----------+--------+

RIGHT JOIN (RIGHT OUTER JOIN)

RIGHT JOIN বা RIGHT OUTER JOIN প্রথম টেবিলের সাথে দ্বিতীয় টেবিলের সমস্ত রেকর্ড একত্রিত করে। যদি প্রথম টেবিলের সাথে কোনো রেকর্ড মেলে না, তবে দ্বিতীয় টেবিলের রেকর্ডগুলো সহ NULL মান প্রদর্শিত হয়।

উদাহরণ:

# RIGHT JOIN ব্যবহার করা
df_right_join = df1.join(df2, "Name", "right")
df_right_join.show()

আউটপুট:

+-----+----------+--------+
| Name|Department|Position|
+-----+----------+--------+
| John|        HR| Manager|
|Alice|   Finance|  Analyst|
| null|      null|   null|
+-----+----------+--------+

FULL JOIN (FULL OUTER JOIN)

FULL JOIN বা FULL OUTER JOIN দুটি টেবিলের সমস্ত রেকর্ড একত্রিত করে। যদি কোনো রেকর্ড এক টেবিলের মধ্যে থাকে কিন্তু অন্য টেবিলের মধ্যে না থাকে, তবে সেই রেকর্ডের জন্য NULL মান প্রদর্শিত হবে।

উদাহরণ:

# FULL JOIN ব্যবহার করা
df_full_join = df1.join(df2, "Name", "full")
df_full_join.show()

আউটপুট:

+-----+----------+--------+
| Name|Department|Position|
+-----+----------+--------+
| John|        HR| Manager|
|Alice|   Finance|  Analyst|
|  Bob|       IT|    null|
| null|      null|   null|
+-----+----------+--------+

JOIN এর শর্তাবলী (Conditions)

Spark SQL-এ JOIN অপারেটরটি ব্যবহার করার সময়, সাধারণত দুটি টেবিলের মধ্যে সম্পর্ক স্থাপন করতে একটি শর্ত প্রদান করতে হয়, যা সাধারণত ON কীওয়ার্ডের মাধ্যমে করা হয়। তবে, আপনি যদি একাধিক শর্ত প্রদান করতে চান, তবে AND, OR ইত্যাদি লজিক্যাল অপারেটর ব্যবহার করতে পারেন।

উদাহরণ:

df_inner_join = df1.join(df2, (df1["Name"] == df2["Name"]) & (df1["Department"] == "HR"), "inner")
df_inner_join.show()

সারাংশ

Spark SQL-এ INNER JOIN, LEFT JOIN, RIGHT JOIN, এবং FULL JOIN এর মতো JOIN অপারেটরগুলি ডেটাসেটের মধ্যে সম্পর্ক স্থাপন এবং ডেটার বিভিন্ন অংশ একত্রিত করতে ব্যবহৃত হয়। এই অপারেটরগুলির মাধ্যমে আপনি SQL কোয়ারি লেখার মাধ্যমে ডেটা প্রসেসিং এবং বিশ্লেষণ করতে পারবেন, যা বড় ডেটাসেটের সঙ্গে কাজ করার জন্য অত্যন্ত কার্যকরী।

Content added By

Rezwan Siddiki Tamim

Subqueries এবং Complex Queries

330

Spark SQL তে Subqueries এবং Complex Queries ব্যবহার করে ডেটা বিশ্লেষণকে আরও শক্তিশালী ও নমনীয় করা যায়। Subqueries হল SQL কোয়ারির মধ্যে থাকা একটি কোয়ারি যা অন্য একটি কোয়ারির মধ্যে লেখা হয়, এবং Complex Queries হল একাধিক SQL অপারেশন দিয়ে তৈরি জটিল কোয়ারি, যেগুলো একাধিক টেবিল বা ডেটাসেটের ওপর কার্যকরী হয়।

এখানে, আমরা Spark SQL-এ Subqueries এবং Complex Queries ব্যবহার করার পদ্ধতিগুলো দেখে নেব।

Subqueries

Subquery বা Nested Query হল একটি কোয়ারি যা অন্য একটি কোয়ারির মধ্যে থাকে। Subqueries সাধারণত WHERE, FROM, বা SELECT ক্লজের মধ্যে ব্যবহার করা হয়, এবং এটি একটি নির্দিষ্ট শর্ত বা মান নির্ধারণে সহায়ক।

Subquery এর উদাহরণ

WHERE ক্লজে Subquery
ধরুন, আমাদের কাছে দুটি টেবিল আছে, employees এবং departments। এখন, আমরা এমন কর্মচারীদের নাম বের করতে চাই যারা এমন একটি বিভাগে কাজ করেন যেখানে বাজেট ৫০০০০ ডলারের বেশি।
```
SELECT name
FROM employees
WHERE department_id IN (
    SELECT department_id
    FROM departments
    WHERE budget > 50000
)
```
এখানে, Inner Query বা Subquery প্রথমে departments টেবিল থেকে সেই বিভাগের ID বের করে যেখানে বাজেট ৫০০০০ ডলারের বেশি। তারপর, Outer Query ওই বিভাগগুলির কর্মচারীদের নাম বের করে।
SELECT ক্লজে Subquery
আমরা এমন ডিপার্টমেন্টের নাম এবং তাদের গড় বেতন বের করতে চাই যেখানে গড় বেতন ৪০০০০ ডলারের বেশি।
```
SELECT department_name,
       (SELECT AVG(salary) FROM employees WHERE department_id = departments.department_id) AS avg_salary
FROM departments
HAVING avg_salary > 40000
```
এই কোয়ারিতে, Subquery প্রতিটি বিভাগে কর্মচারীদের গড় বেতন বের করে এবং পরবর্তীতে মূল কোয়ারি ওই বিভাগের গড় বেতন দেখায়।

Complex Queries

Complex Queries হল এমন SQL কোয়ারি যেগুলো একাধিক টেবিল বা ডেটাসেটের সাথে কাজ করে, একাধিক অপারেশন যেমন জয়েন (JOIN), গ্রুপিং (GROUP BY), অর্ডারিং (ORDER BY) ইত্যাদি ব্যবহার করে। Spark SQL-এ Complex Queries তৈরি করার জন্য DataFrame API বা SQL কোয়ারি ব্যবহার করা যায়।

Complex Query এর উদাহরণ

JOIN Query
ধরুন, আমাদের কাছে দুটি টেবিল আছে, employees এবং departments। আমরা কর্মচারীদের নাম এবং তাদের বিভাগের নাম একসাথে বের করতে চাই।
```
SELECT e.name, d.department_name
FROM employees e
JOIN departments d
ON e.department_id = d.department_id
```
এখানে, employees এবং departments টেবিলকে department_id এর মাধ্যমে JOIN করা হয়েছে।
GROUP BY Query
আমরা কর্মচারীদের গড় বেতন বের করতে চাই এবং সেই অনুযায়ী বিভাগ অনুযায়ী গ্রুপ করতে চাই।
```
SELECT department_id, AVG(salary) AS avg_salary
FROM employees
GROUP BY department_id
HAVING AVG(salary) > 50000
```
এখানে, GROUP BY ব্যবহার করে কর্মচারীদের বিভাগ অনুসারে গ্রুপ করা হয়েছে এবং তাদের গড় বেতন বের করা হয়েছে। পরে, HAVING ক্লজ ব্যবহার করে গড় বেতন ৫০,০০০ ডলারের বেশি এমন বিভাগের ফলাফল বের করা হয়েছে।
ORDER BY Query
আমরা এমন কর্মচারীদের নাম এবং বেতন বের করতে চাই যাদের বেতন ৪০০০০ ডলারের বেশি, এবং তাদের নামকে বর্ণানুক্রমিকভাবে সাজাতে চাই।
```
SELECT name, salary
FROM employees
WHERE salary > 40000
ORDER BY name ASC
```
এখানে, ORDER BY ক্লজ ব্যবহার করে কর্মচারীদের নামকে ঊর্ধ্বমুখী (ASC) বর্ণানুক্রমিকভাবে সাজানো হয়েছে।

Subqueries এবং Complex Queries এর ব্যবহার Spark SQL তে

Spark SQL তে Subqueries এবং Complex Queries ব্যবহার করার মাধ্যমে বড় এবং জটিল ডেটাসেটের ওপর আরও শক্তিশালী এবং উন্নত বিশ্লেষণ করা সম্ভব। Spark SQL-এর সুবিধা হল যে, এটি ডিস্ট্রিবিউটেড কম্পিউটিং এর সুবিধা নেয়, ফলে এই ধরনের জটিল কোয়ারি দ্রুত এক্সিকিউট হয়।

এছাড়া, Spark SQL ব্যবহারকারীদের DataFrame API বা SQL Interface এর মাধ্যমে এই ধরনের কোয়ারি এক্সিকিউট করার সুযোগ দেয়, যেগুলো সাধারণ SQL কোয়ারির সাথে তুলনা করে আরও বেশি পারফরম্যান্স এবং স্কেলেবিলিটি প্রদান করে।

সারাংশ

Spark SQL তে Subqueries এবং Complex Queries ব্যবহার করে ডেটা বিশ্লেষণকে আরও শক্তিশালী এবং নমনীয় করা যায়। Subqueries সাধারণত SQL কোয়ারির মধ্যে নেস্টেড (nested) কোয়ারি হিসেবে ব্যবহৃত হয়, যা অন্যান্য কোয়ারির সাথে যোগাযোগ করে ডেটা প্রক্রিয়া করতে সহায়ক। Complex Queries একাধিক টেবিল এবং অপারেশন যেমন JOIN, GROUP BY, ORDER BY ইত্যাদি ব্যবহার করে আরও জটিল বিশ্লেষণ করতে সক্ষম। Spark SQL-এ এই সব ফিচারের সুবিধা নিয়ে দ্রুত এবং স্কেলেবল ডেটা প্রসেসিং করা সম্ভব।

Content added By

Rezwan Siddiki Tamim

Spark SQL এর পরিচিতি Spark SQL Installation এবং Setup DataFrames এবং Datasets Data Sources এবং Data Loading DataFrames এর সাথে কাজ করা

Spark SQL Queries গাইড ও নোট

Spark SQL-এ SQL কোয়ারি লেখা

SparkSession তৈরি করা:

DataFrame কে SQL টেবিল হিসেবে রেজিস্টার করা

Spark SQL-এ সাধারণ SQL কোয়ারি উদাহরণ

১. SELECT কোয়ারি

২. WHERE ক্লজ ব্যবহার করা

৩. ORDER BY কোয়ারি

৪. LIMIT কোয়ারি

৫. GROUP BY কোয়ারি

৬. JOIN কোয়ারি

৭. Aggregations (SUM, COUNT, AVG, MIN, MAX)

৮. Subquery ব্যবহার করা

Spark SQL-এর পারফরম্যান্স অপটিমাইজেশন

সারাংশ

Spark SQL এ SQL Queries চালানো

Spark SQL এ SQL Queries চালানোর জন্য প্রস্তুতি

SparkSession তৈরি করা:

Spark SQL এ SQL Queries চালানো

SQL কোয়ারি চালানোর উদাহরণ

SQL কোয়ারির সাথে JOIN, GROUP BY, এবং অন্যান্য অপারেশন

JOIN অপারেশন:

GROUP BY অপারেশন:

SQL কোয়ারি এক্সিকিউশন অপটিমাইজেশন

সারাংশ

SELECT, WHERE, GROUP BY, এবং HAVING Clauses

SELECT ক্লজ

SELECT উদাহরণ:

SELECT সব কলাম নির্বাচন করতে:

WHERE ক্লজ

WHERE উদাহরণ:

GROUP BY ক্লজ

GROUP BY উদাহরণ:

GROUP BY-এ একাধিক কলাম:

HAVING ক্লজ

HAVING উদাহরণ:

Spark SQL এ SELECT, WHERE, GROUP BY এবং HAVING ক্লজের সংক্ষিপ্ত ব্যাখ্যা:

সারাংশ

Joins (INNER, LEFT, RIGHT, FULL) এর ব্যবহার

INNER JOIN

উদাহরণ:

আউটপুট:

LEFT JOIN (LEFT OUTER JOIN)

উদাহরণ:

আউটপুট:

RIGHT JOIN (RIGHT OUTER JOIN)

উদাহরণ:

আউটপুট:

FULL JOIN (FULL OUTER JOIN)

উদাহরণ:

আউটপুট:

JOIN এর শর্তাবলী (Conditions)

উদাহরণ:

সারাংশ

Subqueries এবং Complex Queries

Subqueries

Subquery এর উদাহরণ

Complex Queries

Complex Query এর উদাহরণ

Subqueries এবং Complex Queries এর ব্যবহার Spark SQL তে

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!