Machine Learning এবং Spark SQL Integration গাইড ও নোট

Big Data and Analytics - স্পার্ক এসকিউএল (Spark SQL)

348

Spark SQL এবং Machine Learning (ML) একত্রে কাজ করে শক্তিশালী ডেটা প্রসেসিং এবং অ্যানালাইসিস প্ল্যাটফর্ম তৈরি করে। Spark SQL-এ Machine Learning এর সাথে ইন্টিগ্রেশন করলে আপনি ডেটাকে প্রস্তুত করে, বিভিন্ন ML মডেল তৈরি করে এবং সেই মডেলকে ডেটার উপর প্রয়োগ করতে পারেন। Apache Spark-এর MLlib ফ্রেমওয়ার্কটি একটি ওপেন সোর্স লাইব্রেরি, যা ML অ্যালগরিদম, ডেটা প্রিপ্রসেসিং টেকনিক এবং মডেল ট্রেনিং এর জন্য ব্যবহার করা হয়।

Spark SQL এবং Machine Learning-এর মধ্যে ইন্টিগ্রেশন রিয়েল-টাইম ডেটা অ্যাপ্লিকেশন বা বড় ডেটাসেটের উপর মডেল ট্রেনিং এবং ইভালুয়েশনকে সহজ এবং স্কেলেবল করে তোলে।

এই টিউটোরিয়ালে আমরা আলোচনা করব Spark SQL এবং Machine Learning (ML) এর ইন্টিগ্রেশন সম্পর্কে এবং কিভাবে Spark SQL-এ ডেটা প্রসেসিংয়ের মাধ্যমে ML মডেল তৈরি করা যায়।

১. Spark SQL এবং MLlib Integration

Spark SQL এবং MLlib একে অপরের সাথে মসৃণভাবে কাজ করে। আপনি DataFrame API ব্যবহার করে ডেটাকে প্রসেস এবং ট্রান্সফর্ম করতে পারেন, তারপর সেই ডেটা MLlib-এর অ্যালগরিদমে পাঠাতে পারেন, এবং অবশেষে মডেল তৈরির পর সেগুলিকে মূল্যায়ন করতে পারেন।

উদাহরণ: DataFrame ব্যবহার করে Spark MLlib-এর মডেল ট্রেনিং

ধরা যাক, আমরা একটি সহজ Linear Regression মডেল তৈরি করতে যাচ্ছি, যেখানে প্রথমে ডেটা SQL কোয়ারি বা DataFrame API দিয়ে প্রস্তুত করা হবে, তারপর MLlib ব্যবহার করে সেই ডেটার উপর মডেল ট্রেনিং করা হবে।

from pyspark.sql import SparkSession
from pyspark.ml.regression import LinearRegression
from pyspark.ml.feature import VectorAssembler

# SparkSession তৈরি
spark = SparkSession.builder.appName("MLlib and Spark SQL Integration").getOrCreate()

# কিছু স্যাম্পল ডেটা তৈরি করা
data = [(1, 2.0), (2, 3.0), (3, 4.0), (4, 5.0), (5, 6.0)]
columns = ["feature", "label"]

# DataFrame তৈরি
df = spark.createDataFrame(data, columns)

# VectorAssembler ব্যবহার করে features প্রস্তুত করা
assembler = VectorAssembler(inputCols=["feature"], outputCol="features")
df = assembler.transform(df)

# Linear Regression মডেল তৈরি এবং ট্রেনিং করা
lr = LinearRegression(featuresCol="features", labelCol="label")
lr_model = lr.fit(df)

# মডেল প্রেডিকশন করা
predictions = lr_model.transform(df)
predictions.show()

এখানে:

VectorAssembler ব্যবহার করে ইনপুট ফিচারগুলোকে একত্রিত করে একটি feature vector তৈরি করা হয়েছে।
LinearRegression মডেল দিয়ে মডেল ট্রেনিং এবং ডেটার উপর প্রেডিকশন করা হয়েছে।

আউটপুট:

+-------+-----+--------+-------------------+
|feature|label|features|         prediction|
+-------+-----+--------+-------------------+
|    1.0|  2.0|   [1.0]| 1.9999999999999996|
|    2.0|  3.0|   [2.0]| 2.9999999999999996|
|    3.0|  4.0|   [3.0]| 4.000000000000001|
|    4.0|  5.0|   [4.0]| 5.000000000000001|
|    5.0|  6.0|   [5.0]| 6.000000000000001|
+-------+-----+--------+-------------------+

এখানে, LinearRegression মডেল দিয়ে feature এবং label এর উপর মডেল ট্রেনিং করা হয়েছে এবং এরপর predictions তৈরি করা হয়েছে।

২. SQL-এর মাধ্যমে DataFrame তৈরি করা এবং ML মডেল তৈরি করা

Spark SQL ব্যবহার করে ডেটা প্রিপ্রসেসিংয়ের জন্য SQL কোয়ারি চালিয়ে DataFrame তৈরি করা যায় এবং এরপর সেই ডেটার উপর ML মডেল ট্রেনিং করা হয়।

উদাহরণ: SQL কোয়ারি ব্যবহার করে DataFrame তৈরি এবং ML মডেল তৈরি করা

# Spark SQL-এ SQL কোয়ারি ব্যবহার করা
df.createOrReplaceTempView("data")
sql_df = spark.sql("SELECT feature, label FROM data WHERE label > 3")

# VectorAssembler ব্যবহার করে features প্রস্তুত করা
assembler = VectorAssembler(inputCols=["feature"], outputCol="features")
sql_df = assembler.transform(sql_df)

# Linear Regression মডেল তৈরি এবং ট্রেনিং করা
lr = LinearRegression(featuresCol="features", labelCol="label")
lr_model = lr.fit(sql_df)

# মডেল প্রেডিকশন করা
predictions = lr_model.transform(sql_df)
predictions.show()

এখানে:

SQL কোয়ারি ব্যবহার করে DataFrame তৈরি করা হয়েছে এবং VectorAssembler ব্যবহার করে সেই DataFrame এর features প্রস্তুত করা হয়েছে।
LinearRegression মডেল দিয়ে প্রেডিকশন করা হয়েছে।

৩. Spark SQL এবং MLlib ব্যবহার করে Classification Model তৈরি করা

Spark SQL এবং MLlib ব্যবহার করে Classification Models তৈরি করা সম্ভব, যেমন Logistic Regression, Decision Trees, বা Random Forest। এখানে, আমরা Logistic Regression মডেল ব্যবহার করব।

উদাহরণ: Logistic Regression ব্যবহার করে Classification Model তৈরি করা

from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler

# কিছু স্যাম্পল ডেটা তৈরি করা
data = [(0, 1.0, 1.1), (1, 2.0, 1.5), (0, 3.0, 1.7), (1, 4.0, 1.8), (0, 5.0, 2.0)]
columns = ["label", "feature1", "feature2"]

# DataFrame তৈরি
df = spark.createDataFrame(data, columns)

# Feature Vector তৈরি করা
assembler = VectorAssembler(inputCols=["feature1", "feature2"], outputCol="features")
df = assembler.transform(df)

# Logistic Regression মডেল তৈরি এবং ট্রেনিং করা
lr = LogisticRegression(featuresCol="features", labelCol="label")
lr_model = lr.fit(df)

# মডেল প্রেডিকশন করা
predictions = lr_model.transform(df)
predictions.show()

এখানে:

LogisticRegression মডেল ব্যবহার করে classification করা হয়েছে।
VectorAssembler ব্যবহার করে features তৈরি করা হয়েছে এবং মডেল ট্রেনিং করা হয়েছে।

৪. Spark SQL এবং MLlib এর মধ্যে Hyperparameter Tuning

Spark SQL এবং MLlib ব্যবহার করে মডেল ট্রেনিংয়ের সময় Hyperparameter Tuning করা খুবই গুরুত্বপূর্ণ, যাতে মডেলের পারফরম্যান্স বাড়ানো যায়। এটি সাধারণত Cross-validation এবং Grid Search দিয়ে করা হয়।

উদাহরণ: Hyperparameter Tuning (Grid Search)

from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Hyperparameter tuning
paramGrid = ParamGridBuilder() \
    .addGrid(lr.regParam, [0.1, 0.01]) \
    .addGrid(lr.elasticNetParam, [0.8, 0.9]) \
    .build()

# Cross Validator তৈরি করা
evaluator = BinaryClassificationEvaluator()
crossval = CrossValidator(estimator=lr, estimatorParamMaps=paramGrid, evaluator=evaluator, numFolds=3)

# মডেল ট্রেনিং করা
cvModel = crossval.fit(df)

# মডেল প্রেডিকশন
predictions = cvModel.transform(df)
predictions.show()

এখানে:

CrossValidator এবং ParamGridBuilder ব্যবহার করে Grid Search এবং Hyperparameter Tuning করা হয়েছে।

সারাংশ

Spark SQL এবং MLlib এর মাধ্যমে Machine Learning মডেল তৈরি করার প্রক্রিয়া খুবই সহজ এবং স্কেলেবল। DataFrame API এবং SQL কোয়ারি ব্যবহার করে ডেটা প্রস্তুত করা, মডেল ট্রেনিং করা, এবং বিভিন্ন ML অ্যালগরিদম ব্যবহার করা যায়। Spark SQL এবং MLlib এর মধ্যে Integration একটি শক্তিশালী পদ্ধতি যা ডেটা প্রসেসিং এবং মেশিন লার্নিং-এর কাজকে একত্রে কার্যকরী করে তোলে। Hyperparameter Tuning, Cross-Validation, এবং Model Evaluation এর মাধ্যমে মডেল পারফরম্যান্স আরও উন্নত করা সম্ভব।

Content added By

Rezwan Siddiki Tamim

Spark MLlib এবং Spark SQL এর Integration

448

Apache Spark একটি অত্যন্ত শক্তিশালী এবং স্কেলেবল ফ্রেমওয়ার্ক যা Spark SQL এবং Spark MLlib এর মাধ্যমে ডেটা প্রসেসিং এবং মেশিন লার্নিং উভয় ক্ষেত্রেই কার্যকরী সমাধান সরবরাহ করে। Spark SQL ডেটা বিশ্লেষণ এবং ট্রান্সফর্মেশনের জন্য ব্যবহৃত হয়, আর Spark MLlib হল একটি মেশিন লার্নিং লাইব্রেরি যা স্ট্রাকচারড ডেটার ওপর মডেল তৈরি, প্রশিক্ষণ এবং পূর্বাভাস করতে সহায়তা করে।

Spark MLlib এবং Spark SQL এর মধ্যে ইন্টিগ্রেশন ব্যবহার করে আপনি SQL কোয়ারি এবং মেশিন লার্নিং মডেল একই ডেটাসেটে প্রয়োগ করতে পারেন, যা ডেটা প্রস্তুতি থেকে শুরু করে মডেল তৈরির পর্যন্ত একসাথে কাজ করার সুবিধা দেয়।

এখানে আমরা আলোচনা করব কিভাবে Spark MLlib এবং Spark SQL একত্রে ব্যবহার করা যায়।

1. Spark SQL এবং Spark MLlib এর Integration

Spark SQL এবং MLlib এর মধ্যে ইন্টিগ্রেশন অনেক সুবিধা নিয়ে আসে, যেমন:

Structured Data থেকে মেশিন লার্নিং মডেল তৈরি করা।
SQL কোয়ারির মাধ্যমে ডেটা প্রস্তুতি (Data Preparation) এবং ট্রান্সফর্মেশন সহজ করা।
DataFrame/Dataset API-এর মাধ্যমে ডেটা ম্যানিপুলেশন এবং মডেল ট্রেনিং করা।

Spark SQL DataFrame API এর মাধ্যমে সহজেই SQL কোয়ারি চালিয়ে ডেটা প্রস্তুতি করতে পারেন এবং MLlib API দিয়ে সেই ডেটার ওপর মডেল তৈরি এবং প্রশিক্ষণ করতে পারেন।

2. Spark SQL-এ ডেটা প্রস্তুতি

Spark SQL-এর DataFrame API ব্যবহার করে ডেটা প্রস্তুতি করা খুবই সহজ। এই API-তে SQL কোয়ারি এবং ট্রান্সফর্মেশন ব্যবহার করে ডেটাকে মেশিন লার্নিং মডেল তৈরির জন্য প্রস্তুত করা হয়।

উদাহরণ: DataFrame-এ SQL কোয়ারি এবং ট্রান্সফর্মেশন প্রয়োগ

from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import LogisticRegression

# SparkSession তৈরি
spark = SparkSession.builder.appName("Spark SQL and MLlib Integration").getOrCreate()

# DataFrame তৈরি
data = [(0, 1.0, 1.1, 0.1), (1, 1.2, 1.3, 0.2), (0, 2.1, 2.2, 0.3), (1, 3.1, 3.2, 0.4)]
columns = ["label", "feature1", "feature2", "feature3"]
df = spark.createDataFrame(data, columns)

# SQL কোয়ারি প্রয়োগ
df.createOrReplaceTempView("data")
result_df = spark.sql("SELECT * FROM data WHERE feature1 > 1.0")

# Feature vector তৈরি (MLlib DataFrame format)
assembler = VectorAssembler(inputCols=["feature1", "feature2", "feature3"], outputCol="features")
data_prepared = assembler.transform(result_df)

# মেশিন লার্নিং মডেল ট্রেনিং
lr = LogisticRegression(featuresCol="features", labelCol="label")
model = lr.fit(data_prepared)

# মডেল ব্যবহার করে পূর্বাভাস করা
predictions = model.transform(data_prepared)
predictions.show()

এখানে:

SQL কোয়ারি ব্যবহার করে feature1 এর মান 1.0 এর বেশি এমন রেকর্ডগুলো ফিল্টার করা হয়েছে।
VectorAssembler ব্যবহার করে feature1, feature2, এবং feature3 কলামগুলোকে একত্রিত করে একটি ফিচার ভেক্টর তৈরি করা হয়েছে।
তারপর সেই ফিচার ভেক্টর ব্যবহার করে Logistic Regression মডেল তৈরি এবং পূর্বাভাস করা হয়েছে।

3. MLlib মডেল ট্রেনিং এবং SQL ব্যবহার

Spark MLlib-এর মাধ্যমে তৈরি করা মডেলগুলোকে SQL কোয়ারি এবং DataFrame API ব্যবহার করে ডেটার সাথে ইন্টিগ্রেট করা যায়। Spark SQL ব্যবহার করে আপনি মডেল ট্রেনিংয়ের জন্য ডেটা প্রস্তুত করতে পারেন এবং মডেল তৈরির পর SQL কোয়ারি দিয়ে পূর্বাভাস বা প্রেডিকশন করতে পারেন।

উদাহরণ: SQL কোয়ারি দ্বারা Prediction

# Model predictions এ SQL কোয়ারি ব্যবহার
predictions.createOrReplaceTempView("predictions")
predicted_result = spark.sql("SELECT features, prediction FROM predictions WHERE prediction = 1.0")

# Prediction দেখানো
predicted_result.show()

এখানে, পূর্বাভাসের ফলাফল একটি SQL টেবিল হিসেবে রেজিস্টার করা হয়েছে এবং SQL কোয়ারি ব্যবহার করে prediction কলামের মান 1.0 এমন রেকর্ডগুলো ফিল্টার করা হয়েছে।

4. SQL থেকে DataFrame এবং UDF ব্যবহার

Spark SQL-এ User Defined Functions (UDFs) ব্যবহার করে কাস্টম ট্রান্সফর্মেশন এবং মডেল তৈরি করা যেতে পারে। UDF ব্যবহার করে মেশিন লার্নিং মডেলের উপরে কাস্টম লজিক প্রয়োগ করা যেতে পারে, যেমন ডেটা প্রিপ্রসেসিং বা অ্যাগ্রিগেশন।

উদাহরণ: UDF ব্যবহার

from pyspark.sql.functions import udf
from pyspark.sql.types import DoubleType

# UDF তৈরি: কাস্টম স্কোরিং ফাংশন
def custom_score(features):
    return float(features[0]) + float(features[1]) + float(features[2])

# UDF রেজিস্টার করা
custom_score_udf = udf(custom_score, DoubleType())

# UDF ব্যবহার করে নতুন কলাম তৈরি
result_df = data_prepared.withColumn("custom_score", custom_score_udf(data_prepared["features"]))

result_df.show()

এখানে:

একটি কাস্টম স্কোরিং ফাংশন (UDF) তৈরি করা হয়েছে, যা features কলাম থেকে মান নিয়ে একটি কাস্টম স্কোর গণনা করবে।
তারপর সেই UDF ব্যবহার করে নতুন custom_score কলাম তৈরি করা হয়েছে।

5. Batch এবং Streaming Data Integration with MLlib

Spark SQL-এ Batch এবং Streaming ডেটা উভয়ের সঙ্গে MLlib মডেল ব্যবহার করা যেতে পারে। Structured Streaming API ব্যবহার করে স্ট্রিমিং ডেটার ওপর মডেল ট্রেনিং বা পূর্বাভাস করা যেতে পারে। স্ট্রিমিং ডেটার জন্য মডেলটি ধারাবাহিকভাবে আপডেট করা যেতে পারে।

উদাহরণ: Batch এবং Streaming Data এর জন্য Integration

# Streaming Data লোড করা
streaming_df = spark.readStream.format("json").load("path/to/streaming_data")

# Batch Data লোড করা
batch_df = spark.read.parquet("path/to/batch_data")

# Batch Data এবং Streaming Data কে একত্রিত করা
joined_df = batch_df.join(streaming_df, "id")

# Mllib মডেল ব্যবহার
predictions = model.transform(joined_df)

# Write results
query = predictions.writeStream.outputMode("append").format("console").start()
query.awaitTermination()

এখানে:

Batch এবং Streaming Data একত্রিত করা হচ্ছে এবং MLlib মডেল প্রয়োগ করা হচ্ছে।

সারাংশ

Spark SQL এবং Spark MLlib এর মধ্যে ইন্টিগ্রেশন দ্বারা, আপনি SQL কোয়ারি এবং মেশিন লার্নিং মডেল একই ডেটাসেটে প্রয়োগ করতে পারেন। Hive Functions এবং UDFs ব্যবহার করে কাস্টম লজিক এবং ট্রান্সফর্মেশন করা যায়, এবং Structured Streaming এর মাধ্যমে Batch এবং Streaming ডেটা একত্রিত করা সম্ভব হয়। Spark SQL-এর সাথে Spark MLlib-এর সমন্বয়ে আপনি ডেটা বিশ্লেষণ এবং মডেল ট্রেনিংয়ের জন্য একটি শক্তিশালী সমাধান তৈরি করতে পারেন, যা ডেটার সম্পূর্ণ প্রক্রিয়াকে সিমলেস এবং স্কেলেবল করে তোলে।

Content added By

Rezwan Siddiki Tamim

Machine Learning Model এর জন্য DataFrame ব্যবহার

289

Spark SQL এবং Spark MLlib-এ DataFrame হল মেশিন লার্নিং মডেল তৈরির জন্য একটি শক্তিশালী ডেটা স্ট্রাকচার। Spark SQL DataFrame API আপনাকে ডেটাকে প্রসেস করতে এবং সেই ডেটার উপর মেশিন লার্নিং অ্যালগরিদম অ্যাপ্লাই করতে সাহায্য করে। DataFrame সাধারণত স্ট্রাকচারড ডেটা হিসেবে কাজ করে, এবং Spark MLlib তার উপর মেশিন লার্নিং মডেল ট্রেনিং ও পূর্বাভাস তৈরি করতে পারে।

এই টিউটোরিয়ালে আমরা আলোচনা করব কিভাবে Spark SQL-এর DataFrame ব্যবহার করে মেশিন লার্নিং মডেল তৈরি করা যায় এবং সেই মডেলকে ট্রেন এবং টেস্ট করা যায়।

1. Spark DataFrame তৈরি করা এবং MLlib-এ ব্যবহার

Spark SQL-এ DataFrame তৈরি করা হয় সাধারণত CSV, Parquet, JSON অথবা Hive ডেটাবেস থেকে। Spark MLlib-এ এই DataFrame-এ মডেল ট্রেনিং ও পূর্বাভাসের জন্য কিছু নির্দিষ্ট ফিচার (feature) এবং লেবেল (label) কলাম প্রস্তুত করতে হয়।

উদাহরণ: DataFrame তৈরি এবং Logistic Regression Model ট্রেনিং

ধরা যাক, আমরা একটি সহজ Logistic Regression মডেল তৈরি করতে যাচ্ছি, যেখানে age এবং income ফিচার হিসেবে ব্যবহৃত হবে এবং label একটি বাইনারি আউটপুট হিসেবে হবে।

from pyspark.sql import SparkSession
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.functions import col

# SparkSession তৈরি
spark = SparkSession.builder.appName("MLlib DataFrame Example").getOrCreate()

# ডেটা তৈরি
data = [(1, 25, 50000), (0, 32, 60000), (1, 27, 55000), (0, 35, 65000), (1, 29, 58000)]
columns = ["label", "age", "income"]
df = spark.createDataFrame(data, columns)

# Features (age and income) কে একটি ফিচার ভেক্টরে রূপান্তর করা
assembler = VectorAssembler(inputCols=["age", "income"], outputCol="features")
df = assembler.transform(df)

# Logistic Regression মডেল তৈরি
lr = LogisticRegression(featuresCol="features", labelCol="label")
lr_model = lr.fit(df)

# মডেল প্রেডিকশন
predictions = lr_model.transform(df)
predictions.show()

আউটপুট:

+-----+---+------+--------------+--------------------+----------+
|label|age|income|      features|       rawPrediction|prediction|
+-----+---+------+--------------+--------------------+----------+
|    1| 25| 50000| [25.0,50000.0]|[4.3771780725368...|       1.0|
|    0| 32| 60000| [32.0,60000.0]|[-1.058748016166...|       0.0|
|    1| 27| 55000| [27.0,55000.0]|[2.7062303274657...|       1.0|
|    0| 35| 65000| [35.0,65000.0]|[-0.195434877064...|       0.0|
|    1| 29| 58000| [29.0,58000.0]|[3.2126155436697...|       1.0|
+-----+---+------+--------------+--------------------+----------+

এখানে:

VectorAssembler ব্যবহার করে age এবং income কলামগুলোকে একটি ফিচার ভেক্টরে রূপান্তর করা হয়েছে।
LogisticRegression মডেল তৈরি এবং প্রশিক্ষণ করা হয়েছে।
transform ফাংশন ব্যবহার করে মডেল প্রেডিকশন করা হয়েছে।

2. Spark SQL এবং DataFrame Integration

Spark SQL এর মাধ্যমে DataFrame তৈরি করে, তার উপর SQL কোয়ারি চালিয়ে মডেল তৈরি করা যায়। এই ইন্টিগ্রেশন ব্যবহার করে আপনি SQL কোয়ারি দিয়ে ডেটা ফিল্টার বা ট্রান্সফর্ম করে ML মডেল ট্রেনিং করতে পারেন।

উদাহরণ: SQL কোয়ারি ব্যবহার করে DataFrame তৈরি এবং মডেল ট্রেনিং

# DataFrame কে SQL টেবিল হিসেবে তৈরি করা
df.createOrReplaceTempView("data")

# SQL কোয়ারি ব্যবহার করে ডেটা ফিল্টার করা
filtered_df = spark.sql("SELECT * FROM data WHERE age > 30")

# Features তৈরির জন্য VectorAssembler ব্যবহার করা
assembler = VectorAssembler(inputCols=["age", "income"], outputCol="features")
filtered_df = assembler.transform(filtered_df)

# Logistic Regression মডেল তৈরি
lr = LogisticRegression(featuresCol="features", labelCol="label")
lr_model = lr.fit(filtered_df)

# প্রেডিকশন
predictions = lr_model.transform(filtered_df)
predictions.show()

এখানে, SQL কোয়ারি ব্যবহার করে age > 30 শর্তে ডেটা ফিল্টার করা হয়েছে এবং VectorAssembler ব্যবহার করে সেই ডেটার ওপর Logistic Regression মডেল ট্রেনিং করা হয়েছে।

3. DataFrame ব্যবহার করে Hyperparameter Tuning

Spark SQL এবং MLlib ব্যবহার করে Hyperparameter Tuning করা সম্ভব, যাতে মডেলের পারফরম্যান্স সর্বোচ্চ হয়। Grid Search এবং Cross-Validation মডেলের বিভিন্ন হাইপারপ্যারামিটার পরীক্ষা করতে সাহায্য করে।

উদাহরণ: Hyperparameter Tuning using Cross Validation

from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Hyperparameter tuning
paramGrid = ParamGridBuilder() \
    .addGrid(lr.regParam, [0.1, 0.01]) \
    .addGrid(lr.elasticNetParam, [0.8, 0.9]) \
    .build()

# Cross Validator তৈরি করা
evaluator = BinaryClassificationEvaluator()
crossval = CrossValidator(estimator=lr, estimatorParamMaps=paramGrid, evaluator=evaluator, numFolds=3)

# মডেল ট্রেনিং
cvModel = crossval.fit(filtered_df)

# মডেল প্রেডিকশন
predictions = cvModel.transform(filtered_df)
predictions.show()

এখানে, Grid Search ব্যবহার করে Hyperparameter Tuning করা হয়েছে। regParam এবং elasticNetParam এর ভিন্ন মান পরীক্ষিত হয়েছে, এবং সর্বোত্তম মডেল নির্বাচন করা হয়েছে।

4. Spark SQL এবং MLlib এর Performance Optimization

Spark SQL এবং MLlib একত্রে ব্যবহারের সময় কিছু পারফরম্যান্স অপটিমাইজেশন কৌশল অনুসরণ করা উচিত:

DataFrame partitioning: মডেল ট্রেনিং এবং পূর্বাভাসের সময় ডেটা সঠিকভাবে পার্টিশন করা উচিত, যাতে Spark অনেক দ্রুত কাজ করতে পারে।
Broadcast Join: ছোট টেবিলগুলির জন্য Broadcast Join ব্যবহার করে পারফরম্যান্স উন্নত করা যেতে পারে।
Caching: ডেটাকে মেমরিতে ক্যাশে করে রাখলে, পুনরায় সেই ডেটা প্রক্রিয়াকরণের সময় সুবিধা হয়। বিশেষ করে যদি একই ডেটা একাধিক বার প্রসেস করতে হয়।
Column Pruning: যেসব কলাম প্রয়োজনীয় নয় সেগুলি বাদ দিন, যাতে কম্পিউটেশনাল লোড কম হয়।
Avoid UDFs: যতটুকু সম্ভব বিল্ট-ইন Spark SQL ফাংশন ব্যবহার করুন, কারণ UDF গুলি Catalyst Optimizer এর মাধ্যমে অপটিমাইজড হয় না, যার ফলে পারফরম্যান্স কমতে পারে।

সারাংশ

Spark SQL এবং MLlib এর মধ্যে ইন্টিগ্রেশন ব্যবহার করে, আপনি DataFrame তৈরি করে SQL কোয়ারি দিয়ে ডেটা ট্রান্সফর্ম করতে পারেন এবং মেশিন লার্নিং মডেল তৈরি করতে পারেন। Spark SQL-এর DataFrame API ব্যবহার করে ডেটা প্রসেস করা এবং সেই ডেটার উপর MLlib এর অ্যালগরিদম প্রয়োগ করা খুবই সহজ এবং স্কেলেবল। Hyperparameter Tuning এবং Cross-Validation ব্যবহার করে মডেল পারফরম্যান্স আরও বৃদ্ধি করা সম্ভব। Spark SQL এবং MLlib একত্রে ব্যবহার করে আপনি ডেটা প্রিপ্রসেসিং থেকে শুরু করে মডেল ট্রেনিং এবং পূর্বাভাস পর্যন্ত একটি সম্পূর্ণ মেশিন লার্নিং পিপলাইন তৈরি করতে পারেন।

Content added By

Rezwan Siddiki Tamim

Spark SQL এর মাধ্যমে Feature Engineering Techniques

291

Feature Engineering হল মেশিন লার্নিং মডেল তৈরির একটি গুরুত্বপূর্ণ অংশ, যেখানে ডেটার মান থেকে নতুন তথ্য তৈরি করা হয়, যা মডেলকে আরও ভালোভাবে প্রশিক্ষিত করতে সাহায্য করে। Spark SQL এবং DataFrame API ব্যবহার করে আপনি সহজেই ডেটার উপর বিভিন্ন Feature Engineering Techniques প্রয়োগ করতে পারেন। এতে ডেটার স্বচ্ছতা বৃদ্ধি পায় এবং মডেলের পারফরম্যান্স উন্নত হয়।

এই টিউটোরিয়ালে আমরা Spark SQL এর মাধ্যমে বিভিন্ন Feature Engineering Techniques সম্পর্কে আলোচনা করব, যেমন:

Handling Missing Data
Feature Scaling
One-Hot Encoding
Feature Transformation
Feature Interaction

1. Handling Missing Data

ডেটাসেটে মিসিং বা অনুপস্থিত মান থাকা খুবই সাধারণ। Spark SQL ব্যবহার করে আপনি খুব সহজেই ডেটা পরিষ্কার এবং মিসিং ডেটা হ্যান্ডল করতে পারেন। Spark SQL-এ fillna(), dropna(), এবং replace() ফাংশন ব্যবহার করে মিসিং ডেটা ফিল বা ড্রপ করা যায়।

উদাহরণ: Missing Data Handle করা

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# SparkSession তৈরি
spark = SparkSession.builder.appName("Handle Missing Data").getOrCreate()

# উদাহরণ DataFrame তৈরি
data = [("Alice", 28), ("Bob", None), ("Charlie", 30), (None, 35)]
columns = ["name", "age"]
df = spark.createDataFrame(data, columns)

# Missing Data ফিল করা
df_filled = df.fillna({"age": 30, "name": "Unknown"})

df_filled.show()

আউটপুট:

+-------+---+
|   name|age|
+-------+---+
|  Alice| 28|
|    Bob| 30|
|Charlie| 30|
|Unknown| 35|
+-------+---+

এখানে, fillna() ব্যবহার করে age এবং name কলামের মিসিং ডেটা পূর্ণ করা হয়েছে।

2. Feature Scaling

মেশিন লার্নিং মডেলগুলির জন্য ফিচার স্কেলিং অত্যন্ত গুরুত্বপূর্ণ, কারণ এটি ডেটার স্কেল সমন্বয় করতে সাহায্য করে। Spark SQL-এ StandardScaler এবং MinMaxScaler ব্যবহার করে feature scaling করা যায়। এই স্কেলিং প্রযুক্তিগুলি বড় ডেটাসেটের জন্য গুরুত্বপূর্ণ, যাতে বিভিন্ন ফিচারের স্কেল একে অপরের সাথে সামঞ্জস্যপূর্ণ থাকে।

উদাহরণ: Feature Scaling (StandardScaler)

from pyspark.ml.feature import StandardScaler
from pyspark.ml.linalg import Vectors
from pyspark.sql.functions import col

# DataFrame তৈরি
data = [(0, Vectors.dense([1.0, 0.1, -1.0]),),
        (1, Vectors.dense([2.0, 1.1, 1.0]),),
        (2, Vectors.dense([3.0, 10.1, 3.0]),)]
columns = ["id", "features"]
df = spark.createDataFrame(data, columns)

# StandardScaler ব্যবহার করা
scaler = StandardScaler(inputCol="features", outputCol="scaled_features")
scaler_model = scaler.fit(df)
scaled_df = scaler_model.transform(df)

scaled_df.select("id", "scaled_features").show()

আউটপুট:

+---+-------------------+
| id|     scaled_features|
+---+-------------------+
|  0| [0.2672612419124244,0.0,-1.2247448713915892]|
|  1| [0.5345224838248488,0.0,0.0]|
|  2| [0.8017837257372732,0.0,1.2247448713915892]|
+---+-------------------+

এখানে StandardScaler ব্যবহার করে ফিচারগুলোকে স্কেল করা হয়েছে, যার ফলে স্কেলিংয়ের পরে ফিচারগুলোর মানকে নর্মালাইজ করা হয়েছে।

3. One-Hot Encoding

One-Hot Encoding হল একটি ক্যাটেগরিকাল ভ্যালু এনকোডিং পদ্ধতি, যা ক্যাটেগরিকাল ভ্যালুকে বাইনারি ভ্যালু (0 এবং 1) তে রূপান্তরিত করে। Spark SQL-এ StringIndexer এবং OneHotEncoder ব্যবহার করে One-Hot Encoding করা যায়।

উদাহরণ: One-Hot Encoding

from pyspark.ml.feature import StringIndexer, OneHotEncoder

# DataFrame তৈরি
data = [("red",), ("green",), ("blue",), ("green",)]
columns = ["color"]
df = spark.createDataFrame(data, columns)

# StringIndexer ব্যবহার করে ক্যাটেগরি এনকোডিং করা
indexer = StringIndexer(inputCol="color", outputCol="colorIndex")
indexed_df = indexer.fit(df).transform(df)

# OneHotEncoder ব্যবহার করে One-Hot Encoding করা
encoder = OneHotEncoder(inputCol="colorIndex", outputCol="colorVec")
encoded_df = encoder.transform(indexed_df)

encoded_df.show()

আউটপুট:

+-----+----------+--------+-------------+
|color|colorIndex|colorVec|     encoded|
+-----+----------+--------+-------------+
|  red|       0.0| (3,[],[])| [1.0,0.0,0.0]|
|green|       1.0| (3,[],[])| [0.0,1.0,0.0]|
| blue|       2.0| (3,[],[])| [0.0,0.0,1.0]|
|green|       1.0| (3,[],[])| [0.0,1.0,0.0]|
+-----+----------+--------+-------------+

এখানে, StringIndexer প্রথমে color কলামের ক্যাটেগরিকাল ভ্যালু এনকোড করেছে এবং পরে OneHotEncoder দিয়ে One-Hot Encoding প্রয়োগ করা হয়েছে, যেখানে colorVec কলামটি One-Hot Encoding রিটার্ন করেছে।

4. Feature Transformation

Feature Transformation এমন একটি প্রক্রিয়া যেখানে মূল ডেটা থেকে নতুন ফিচার তৈরি করা হয়, যা মডেলকে আরও ভালোভাবে প্রশিক্ষিত করতে সাহায্য করে। Spark SQL-এ বিভিন্ন feature transformation techniques রয়েছে, যেমন log transformation, square root transformation, exponential transformation ইত্যাদি।

উদাহরণ: Feature Transformation (Log Transformation)

from pyspark.sql.functions import log

# DataFrame তৈরি
data = [(1, 100), (2, 200), (3, 300)]
columns = ["id", "value"]
df = spark.createDataFrame(data, columns)

# Log transformation প্রয়োগ করা
df_transformed = df.withColumn("log_value", log(df["value"]))

df_transformed.show()

আউটপুট:

+---+-----+------------------+
| id|value|        log_value|
+---+-----+------------------+
|  1|  100| 4.605170186000001|
|  2|  200| 5.298317366548036|
|  3|  300| 5.703782474656201|
+---+-----+------------------+

এখানে, log ফাংশন ব্যবহার করে value কলামের উপর log transformation প্রয়োগ করা হয়েছে এবং একটি নতুন কলাম log_value তৈরি করা হয়েছে।

5. Feature Interaction

Feature Interaction হল একাধিক ফিচারের সমন্বয়ে নতুন ফিচার তৈরি করা। Spark SQL-এ আপনি সহজেই feature interaction তৈরি করতে পারেন, যেমন দুটি বা তার বেশি ফিচারের গুণফল, যোগফল ইত্যাদি।

উদাহরণ: Feature Interaction (Multiplying two features)

from pyspark.sql.functions import col

# DataFrame তৈরি
data = [(1, 2), (2, 3), (3, 4)]
columns = ["feature1", "feature2"]
df = spark.createDataFrame(data, columns)

# Feature interaction: দুটি ফিচারের গুণফল তৈরি করা
df_transformed = df.withColumn("feature_interaction", col("feature1") * col("feature2"))

df_transformed.show()

আউটপুট:

+--------+--------+------------------+
|feature1|feature2|feature_interaction|
+--------+--------+------------------+
|       1|       2|                 2|
|       2|       3|                 6|
|       3|       4|                12|
+--------+--------+------------------+

এখানে, feature interaction তৈরি করার জন্য feature1 এবং feature2 কলামের গুণফল নেওয়া হয়েছে এবং নতুন feature_interaction কলাম তৈরি করা হয়েছে।

সারাংশ

Feature Engineering হল মেশিন লার্নিং মডেল তৈরির একটি গুরুত্বপূর্ণ পর্যায়, এবং Spark SQL এর মাধ্যমে ডেটা ট্রান্সফরমেশন খুবই কার্যকরীভাবে করা যায়। Missing Data Handling, Feature Scaling, One-Hot Encoding, Feature Transformation, এবং Feature Interaction এর মতো বিভিন্ন Feature Engineering Techniques Spark SQL-এর মাধ্যমে সহজেই প্রয়োগ করা যায়, যা মডেলের পারফরম্যান্সকে ব্যাপকভাবে উন্নত করতে সাহায্য করে। Spark SQL-এর DataFrame এবং SQL কোয়ারির মাধ্যমে এই সকল টেকনিক প্রয়োগ করা যেতে পারে।

Content added By

Rezwan Siddiki Tamim

Model Training এবং Prediction এর জন্য Spark SQL ব্যবহার

302

Apache Spark SQL এবং MLlib ব্যবহার করে আপনি Machine Learning মডেল তৈরি করতে পারেন এবং সেই মডেলের উপর Prediction করতে পারেন। Spark SQL ডেটা প্রসেসিং এবং ট্রান্সফর্মেশন করার জন্য একটি অত্যন্ত শক্তিশালী টুল, এবং MLlib ব্যবহারের মাধ্যমে মডেল ট্রেনিং এবং প্রেডিকশনও করা যায়। Spark SQL এবং Spark MLlib একত্রে ব্যবহার করলে মডেল ট্রেনিং এবং প্রেডিকশন করার প্রক্রিয়া আরও সহজ এবং স্কেলেবল হয়ে ওঠে।

এখানে, Spark SQL এবং MLlib এর মাধ্যমে মডেল ট্রেনিং, প্রেডিকশন এবং ডেটা প্রস্তুতি করার উদাহরণ দেয়া হবে।

১. Data Preparation with Spark SQL

ডেটা প্রস্তুত করার জন্য Spark SQL ব্যবহার করা হয়। প্রথমে ডেটা DataFrame তে লোড করা হয় এবং তারপর SQL কোয়ারি বা DataFrame API ব্যবহার করে ফিল্টার, ট্রান্সফর্ম বা প্রিপ্রসেসিং করা হয়। এরপর সেই ডেটা ব্যবহার করে MLlib মডেল ট্রেনিং করা হয়।

উদাহরণ: DataFrame তৈরি এবং SQL কোয়ারি প্রয়োগ

from pyspark.sql import SparkSession

# SparkSession তৈরি
spark = SparkSession.builder.appName("Spark SQL and MLlib").getOrCreate()

# কিছু স্যাম্পল ডেটা তৈরি করা
data = [(1, 2.0, 3.0), (2, 3.0, 4.0), (3, 4.0, 5.0), (4, 5.0, 6.0)]
columns = ["id", "feature1", "feature2"]

# DataFrame তৈরি
df = spark.createDataFrame(data, columns)

# SQL কোয়ারি ব্যবহার করা
df.createOrReplaceTempView("data")
result_df = spark.sql("SELECT * FROM data WHERE feature1 > 2.0")

# DataFrame দেখানো
result_df.show()

আউটপুট:

+---+--------+--------+
| id|feature1|feature2|
+---+--------+--------+
|  2|     3.0|     4.0|
|  3|     4.0|     5.0|
|  4|     5.0|     6.0|
+---+--------+--------+

এখানে, SQL কোয়ারি ব্যবহার করে feature1 এর মান ২ এর বেশি এমন রেকর্ডগুলো ফিল্টার করা হয়েছে।

২. MLlib Model Training with Spark SQL Data

Spark SQL থেকে ডেটা প্রস্তুত করার পর, MLlib এর সাহায্যে Machine Learning মডেল ট্রেনিং করা হয়। আপনি বিভিন্ন মডেল যেমন Linear Regression, Logistic Regression, Decision Trees ইত্যাদি ব্যবহার করতে পারেন। এখানে আমরা Logistic Regression মডেল ব্যবহার করে একটি ক্লাসিফিকেশন টাস্ক দেখবো।

উদাহরণ: Logistic Regression মডেল ট্রেনিং

from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler

# Feature vector তৈরি করা
assembler = VectorAssembler(inputCols=["feature1", "feature2"], outputCol="features")
df_with_features = assembler.transform(result_df)

# Logistic Regression মডেল তৈরি করা
lr = LogisticRegression(featuresCol="features", labelCol="id")

# মডেল ট্রেনিং করা
lr_model = lr.fit(df_with_features)

# মডেল প্রেডিকশন করা
predictions = lr_model.transform(df_with_features)
predictions.show()

আউটপুট:

+---+--------+--------+--------------+--------------------+----------+
| id|feature1|feature2|      features|       rawPrediction|prediction|
+---+--------+--------+--------------+--------------------+----------+
|  2|     3.0|     4.0| [3.0,4.0]| [0.9389817230732...|       1.0|
|  3|     4.0|     5.0| [4.0,5.0]| [1.4264722707047...|       1.0|
|  4|     5.0|     6.0| [5.0,6.0]| [1.9139628183363...|       1.0|
+---+--------+--------+--------------+--------------------+----------+

এখানে:

LogisticRegression মডেল ব্যবহার করা হয়েছে এবং VectorAssembler দিয়ে feature1 এবং feature2 কলামকে একটি feature vector তে রূপান্তর করা হয়েছে।
এরপর সেই ফিচার ভেক্টরের উপর Logistic Regression মডেল ট্রেনিং করা হয়েছে এবং প্রেডিকশন করা হয়েছে।

৩. Model Evaluation

মডেল ট্রেনিংয়ের পর মডেলটির পারফরম্যান্স মূল্যায়ন করা গুরুত্বপূর্ণ। Spark MLlib Evaluator ব্যবহার করে মডেলের পারফরম্যান্স পরিমাপ করতে সহায়তা করে। উদাহরণস্বরূপ, BinaryClassificationEvaluator ব্যবহার করে Logistic Regression মডেলটির accuracy পরিমাপ করা যেতে পারে।

উদাহরণ: Model Evaluation with BinaryClassificationEvaluator

from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Model Evaluation: Accuracy পরিমাপ করা
evaluator = BinaryClassificationEvaluator(labelCol="id", rawPredictionCol="rawPrediction")
accuracy = evaluator.evaluate(predictions)

print(f"Model Accuracy: {accuracy}")

এখানে, BinaryClassificationEvaluator ব্যবহার করে মডেলের accuracy নির্ধারণ করা হয়েছে, যেখানে rawPrediction এবং label কলাম গুলি ব্যবহার করা হয়েছে।

৪. SQL এবং MLlib Integration with Streaming Data

Spark SQL এবং MLlib ব্যবহার করে Structured Streaming এর উপর মডেল ট্রেনিং এবং পূর্বাভাস করা যায়। স্ট্রিমিং ডেটার জন্য মডেল তৈরি এবং প্রেডিকশন করার জন্য Structured Streaming API ব্যবহার করা হয়।

উদাহরণ: Structured Streaming for Prediction

# স্ট্রিমিং ডেটা লোড করা
streaming_df = spark.readStream.format("json").load("path/to/streaming_data")

# স্ট্রিমিং ডেটার উপর পূর্বাভাস করা
streaming_df_with_features = assembler.transform(streaming_df)
streaming_predictions = lr_model.transform(streaming_df_with_features)

# ফলাফল লিখা
query = streaming_predictions.writeStream.outputMode("append").format("console").start()
query.awaitTermination()

এখানে, streaming_df স্ট্রিমিং ডেটা থেকে লোড করা হয় এবং Logistic Regression মডেল দিয়ে প্রেডিকশন করা হয়।

৫. Hyperparameter Tuning with Spark SQL and MLlib

মডেল ট্রেনিংয়ের সময় Hyperparameter Tuning গুরুত্বপূর্ণ ভূমিকা পালন করে। Spark SQL এবং MLlib ব্যবহার করে Cross Validation এবং Grid Search প্রয়োগ করা যায় যাতে মডেলের পারফরম্যান্স উন্নত হয়।

উদাহরণ: Hyperparameter Tuning with CrossValidator

from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Hyperparameter tuning
paramGrid = ParamGridBuilder() \
    .addGrid(lr.regParam, [0.1, 0.01]) \
    .addGrid(lr.elasticNetParam, [0.8, 0.9]) \
    .build()

# Cross Validator তৈরি করা
evaluator = BinaryClassificationEvaluator()
crossval = CrossValidator(estimator=lr, estimatorParamMaps=paramGrid, evaluator=evaluator, numFolds=3)

# মডেল ট্রেনিং এবং টিউনিং
cvModel = crossval.fit(df_with_features)

# মডেল প্রেডিকশন
predictions = cvModel.transform(df_with_features)
predictions.show()

এখানে CrossValidator এবং ParamGridBuilder ব্যবহার করে Grid Search এবং Hyperparameter Tuning করা হয়েছে।

সারাংশ

Spark SQL এবং MLlib এর ইন্টিগ্রেশন ব্যবহার করে মডেল ট্রেনিং এবং প্রেডিকশন অত্যন্ত সহজ এবং স্কেলেবল হয়ে ওঠে। SQL কোয়ারি ব্যবহার করে ডেটা প্রসেসিং এবং প্রিপ্রসেসিং করার পর MLlib এর অ্যালগরিদম ব্যবহার করে মডেল তৈরি এবং প্রেডিকশন করা যায়। Hyperparameter tuning এবং model evaluation Spark SQL এবং MLlib এর মাধ্যমে খুব সহজে করা যায়। Spark SQL এবং MLlib একত্রে ব্যবহার করে বড় ডেটাসেট বা স্ট্রিমিং ডেটার উপর মডেল ট্রেনিং, পারফরম্যান্স পরিমাপ, এবং পূর্বাভাস করা সম্ভব।

Content added By

Rezwan Siddiki Tamim

Spark SQL এর পরিচিতি Spark SQL Installation এবং Setup DataFrames এবং Datasets Spark SQL Queries Data Sources এবং Data Loading

Machine Learning এবং Spark SQL Integration গাইড ও নোট

১. Spark SQL এবং MLlib Integration

উদাহরণ: DataFrame ব্যবহার করে Spark MLlib-এর মডেল ট্রেনিং

আউটপুট:

২. SQL-এর মাধ্যমে DataFrame তৈরি করা এবং ML মডেল তৈরি করা

উদাহরণ: SQL কোয়ারি ব্যবহার করে DataFrame তৈরি এবং ML মডেল তৈরি করা

৩. Spark SQL এবং MLlib ব্যবহার করে Classification Model তৈরি করা

উদাহরণ: Logistic Regression ব্যবহার করে Classification Model তৈরি করা

৪. Spark SQL এবং MLlib এর মধ্যে Hyperparameter Tuning

উদাহরণ: Hyperparameter Tuning (Grid Search)

সারাংশ

Spark MLlib এবং Spark SQL এর Integration

1. Spark SQL এবং Spark MLlib এর Integration

2. Spark SQL-এ ডেটা প্রস্তুতি

উদাহরণ: DataFrame-এ SQL কোয়ারি এবং ট্রান্সফর্মেশন প্রয়োগ

3. MLlib মডেল ট্রেনিং এবং SQL ব্যবহার

উদাহরণ: SQL কোয়ারি দ্বারা Prediction

4. SQL থেকে DataFrame এবং UDF ব্যবহার

উদাহরণ: UDF ব্যবহার

5. Batch এবং Streaming Data Integration with MLlib

উদাহরণ: Batch এবং Streaming Data এর জন্য Integration

সারাংশ

Machine Learning Model এর জন্য DataFrame ব্যবহার

1. Spark DataFrame তৈরি করা এবং MLlib-এ ব্যবহার

উদাহরণ: DataFrame তৈরি এবং Logistic Regression Model ট্রেনিং

আউটপুট:

2. Spark SQL এবং DataFrame Integration

উদাহরণ: SQL কোয়ারি ব্যবহার করে DataFrame তৈরি এবং মডেল ট্রেনিং

3. DataFrame ব্যবহার করে Hyperparameter Tuning

উদাহরণ: Hyperparameter Tuning using Cross Validation

4. Spark SQL এবং MLlib এর Performance Optimization

সারাংশ

Spark SQL এর মাধ্যমে Feature Engineering Techniques

1. Handling Missing Data

উদাহরণ: Missing Data Handle করা

আউটপুট:

2. Feature Scaling

উদাহরণ: Feature Scaling (StandardScaler)

আউটপুট:

3. One-Hot Encoding

উদাহরণ: One-Hot Encoding

আউটপুট:

4. Feature Transformation

উদাহরণ: Feature Transformation (Log Transformation)

আউটপুট:

5. Feature Interaction

উদাহরণ: Feature Interaction (Multiplying two features)

আউটপুট:

সারাংশ

Model Training এবং Prediction এর জন্য Spark SQL ব্যবহার

১. Data Preparation with Spark SQL

উদাহরণ: DataFrame তৈরি এবং SQL কোয়ারি প্রয়োগ

আউটপুট:

২. MLlib Model Training with Spark SQL Data

উদাহরণ: Logistic Regression মডেল ট্রেনিং

আউটপুট:

৩. Model Evaluation

উদাহরণ: Model Evaluation with BinaryClassificationEvaluator

৪. SQL এবং MLlib Integration with Streaming Data

উদাহরণ: Structured Streaming for Prediction

৫. Hyperparameter Tuning with Spark SQL and MLlib

উদাহরণ: Hyperparameter Tuning with CrossValidator

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!