PySpark SQL ফলাফল প্লট করতে Matplotlib কিভাবে ব্যবহার করবেন?

PySpark SQL প্লট করতে Matplotlib ব্যবহার করতে ফলাফল, আমরা নিম্নলিখিত পদক্ষেপ নিতে পারি-

চিত্রের আকার সেট করুন এবং সাবপ্লটের মধ্যে এবং চারপাশে প্যাডিং সামঞ্জস্য করুন।
উদাহরণটি পান যেটি স্পার্ক কার্যকারিতার জন্য প্রধান এন্ট্রি পয়েন্ট।
Spark SQL-এর একটি রূপের উদাহরণ পান যা Hive-এ সংরক্ষিত ডেটার সাথে একীভূত হয়৷
টিপল হিসাবে রেকর্ডের একটি তালিকা তৈরি করুন।
আরডিডি তৈরি করতে একটি স্থানীয় পাইথন সংগ্রহ বিতরণ করুন।
তালিকা রেকর্ডটিকে একটি DB স্কিমা হিসাবে ম্যাপ করুন৷
"my_table" এ এন্ট্রি করতে স্কিমা ইনস্ট্যান্স পান।
একটি টেবিলে একটি রেকর্ড সন্নিবেশ করান৷
এসকিউএল কোয়েরি পড়ুন, রেকর্ড পুনরুদ্ধার করুন।
ফেচ করা রেকর্ডটিকে একটি ডেটা ফ্রেমে রূপান্তর করুন৷
নাম দিয়ে সূচী সেট করুন বৈশিষ্ট্য এবং তাদের প্লট।
চিত্রটি প্রদর্শন করতে, শো() ব্যবহার করুন পদ্ধতি।

উদাহরণ

from pyspark.sql import Row
from pyspark.sql import HiveContext
import pyspark
import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = [7.50, 3.50]
plt.rcParams["figure.autolayout"] = True

sc = pyspark.SparkContext()
sqlContext = HiveContext(sc)

test_list = [(1, 'John'), (2, 'James'), (3, 'Jack'), (4, 'Joe')]
rdd = sc.parallelize(test_list)
people = rdd.map(lambda x: Row(id=int(x[0]), name=x[1]))
schemaPeople = sqlContext.createDataFrame(people)
sqlContext.registerDataFrameAsTable(schemaPeople, "my_table")

df = sqlContext.sql("Select * from my_table")
df = df.toPandas()
df.set_index('name').plot()

plt.show()

আউটপুট

PySpark SQL ফলাফল প্লট করতে Matplotlib কিভাবে ব্যবহার করবেন?