PySpark SQL প্লট করতে Matplotlib ব্যবহার করতে ফলাফল, আমরা নিম্নলিখিত পদক্ষেপ নিতে পারি-
- চিত্রের আকার সেট করুন এবং সাবপ্লটের মধ্যে এবং চারপাশে প্যাডিং সামঞ্জস্য করুন।
- উদাহরণটি পান যেটি স্পার্ক কার্যকারিতার জন্য প্রধান এন্ট্রি পয়েন্ট।
- Spark SQL-এর একটি রূপের উদাহরণ পান যা Hive-এ সংরক্ষিত ডেটার সাথে একীভূত হয়৷
- টিপল হিসাবে রেকর্ডের একটি তালিকা তৈরি করুন।
- আরডিডি তৈরি করতে একটি স্থানীয় পাইথন সংগ্রহ বিতরণ করুন।
- তালিকা রেকর্ডটিকে একটি DB স্কিমা হিসাবে ম্যাপ করুন৷ ৷
- "my_table" এ এন্ট্রি করতে স্কিমা ইনস্ট্যান্স পান।
- একটি টেবিলে একটি রেকর্ড সন্নিবেশ করান৷ ৷
- এসকিউএল কোয়েরি পড়ুন, রেকর্ড পুনরুদ্ধার করুন।
- ফেচ করা রেকর্ডটিকে একটি ডেটা ফ্রেমে রূপান্তর করুন৷
- নাম দিয়ে সূচী সেট করুন বৈশিষ্ট্য এবং তাদের প্লট।
- চিত্রটি প্রদর্শন করতে, শো() ব্যবহার করুন পদ্ধতি।
উদাহরণ
from pyspark.sql import Row from pyspark.sql import HiveContext import pyspark import matplotlib.pyplot as plt plt.rcParams["figure.figsize"] = [7.50, 3.50] plt.rcParams["figure.autolayout"] = True sc = pyspark.SparkContext() sqlContext = HiveContext(sc) test_list = [(1, 'John'), (2, 'James'), (3, 'Jack'), (4, 'Joe')] rdd = sc.parallelize(test_list) people = rdd.map(lambda x: Row(id=int(x[0]), name=x[1])) schemaPeople = sqlContext.createDataFrame(people) sqlContext.registerDataFrameAsTable(schemaPeople, "my_table") df = sqlContext.sql("Select * from my_table") df = df.toPandas() df.set_index('name').plot() plt.show()
আউটপুট