পাইথন ডেটা বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশনের জন্য অনেকগুলি লাইব্রেরি সরবরাহ করে যা মূলত নম্পি, পান্ডা, ম্যাটপ্লটলিব, সিবোর্ন ইত্যাদি। এই বিভাগে, আমরা ডাটা বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশনের জন্য পান্ডাস লাইব্রেরি নিয়ে আলোচনা করতে যাচ্ছি যা নম্পির উপরে নির্মিত একটি ওপেন সোর্স লাইব্রেরি।
এটি আমাদের দ্রুত বিশ্লেষণ এবং ডেটা পরিষ্কার এবং প্রস্তুতির অনুমতি দেয়৷ পান্ডাস অনেকগুলি অন্তর্নির্মিত ভিজ্যুয়ালাইজেশন বৈশিষ্ট্যও প্রদান করে যা আমরা নীচে দেখতে যাচ্ছি৷
ইনস্টলেশন
পান্ডা ইনস্টল করতে, আপনার টার্মিনালে নিচের কমান্ডটি চালান -
pipinstall pandas
অরওয়ের কাছে অ্যানাকোন্ডা আছে, আপনি ব্যবহার করতে পারেন
condainstall pandas
পান্ডাস-ডেটাফ্রেম
যখন আমরা পান্ডাদের সাথে কাজ করি তখন ডেটা ফ্রেমই প্রধান টুল।
কোড −
import numpy as np import pandas as pd from numpy.random import randn np.random.seed(50) df = pd.DataFrame(randn(6,4), ['a','b','c','d','e','f'],['w','x','y','z']) df
আউটপুট
| ৷ | w | x | y | z |
|---|---|---|---|---|
| a | -1.560352 | -0.030978 | -0.620928 | -1.464580 |
| b | 1.411946 | -0.476732 | -0.780469 | 1.070268 |
| c | -1.282293 | -1.327479 | 0.126338 | 0.862194 |
| d | 0.696737 | -0.334565 | -0.997526 | 1.598908 |
| e | 3.314075 | 0.987770 | 0.123866 | 0.742785 |
| f | -0.393956 | 0.148116 | -0.412234 | -0.160715 |
পান্ডাস-অনুপস্থিত ডেটা
অনুপস্থিত ডেটা ইনপান্ডাস মোকাবেলা করার কিছু সুবিধাজনক উপায় দেখতে যাচ্ছি, যা স্বয়ংক্রিয়ভাবে শূন্য বা ন্যান দিয়ে পূর্ণ হয়ে যায়।
import numpy as np
import pandas as pd
from numpy.random import randn
d = {'A': [1,2,np.nan], 'B': [9, np.nan, np.nan], 'C': [1,4,9]}
df = pd.DataFrame(d)
df আউটপুট
| | A | B | C |
|---|---|---|---|
| 0 | 1.0 | 9.0 | 1 |
| 1 | 2.0 | NaN | 4 |
| 2 | NaN | NaN | 9 |
সুতরাং, উপরে আমাদের 3টি অনুপস্থিত মান রয়েছে।
df.dropna()
| | A | B | সি |
|---|---|---|---|
| 0 | 1.0 | 9.0 | 1 |
df.dropna(axis = 1)
| | সি |
|---|---|
| 0 | 1 |
| 1 | 4 |
| 2 | 9 |
df.dropna(thresh = 2)
| | A | B | সি |
|---|---|---|---|
| 0 | 1.0 | 9.0 | 1 |
| 1 | 2.0 | NaN | 4 |
df.fillna(value = df.mean())
| | A | B | সি |
|---|---|---|---|
| 0 | 1.0 | 9.0 | 1 |
| 1 | 2.0 | 9.0 | 4 |
| 2 | 1.5 | 9.0 | 9 |
পান্ডাস − ডেটা আমদানি করুন
আমরা csv ফাইলটি পড়তে যাচ্ছি যা হয় আমাদের স্থানীয় মেশিনে সংরক্ষিত (আমার ক্ষেত্রে) অথবা আমরা সরাসরি ওয়েব থেকে আনতে পারি।
#import pandas library
import pandas as pd
#Read csv file and assigned it to dataframe variable
df = pd.read_csv("SYB61_T03_Population Growth Rates in Urban areas and Capital cities.csv",encoding = "ISO-8859-1")
#Read first five element from the dataframe
df.head() থেকে প্রথম পাঁচটি উপাদান পড়ুন আউটপুট

আমাদের ডেটাফ্রেম বা csv ফাইলে সারি এবং কলামের সংখ্যা পড়তে।
#Countthe number of rows and columns in our dataframe. df.shape
আউটপুট
(4166,9)
পান্ডাস − ডেটাফ্রেম ম্যাথ
পান্ডা ফরস্ট্যাটিস্টিক্সের বিভিন্ন টুল ব্যবহার করে অপারেশনস ডাটাফ্রেম করা যেতে পারে
#To computes various summary statistics, excluding NaN values df.describe()
আউটপুট

# computes numerical data ranks df.rank()
আউটপুট

.....
.....

পান্ডাস − প্লট গ্রাফ
import matplotlib.pyplot as plt
years = [1981, 1991, 2001, 2011, 2016]
Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000]
plt.plot(years, Average_populations)
plt.title("Census of India: sample registration system")
plt.xlabel("Year")
plt.ylabel("Average_populations")
plt.show() আউটপুট

উপরের ডেটার স্ক্যাটার প্লট:
plt.scatter(years,Average_populations)

হিস্টোগ্রাম:
import matplotlib.pyplot as plt
Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000]
plt.hist(Average_populations, bins = 10)
plt.xlabel("Average_populations")
plt.ylabel("Frequency")
plt.show() আউটপুট
