কম্পিউটার

পান্ডাস ডেটাফ্রেমের সাথে প্রক্রিয়াকরণের সময়


এই নিবন্ধে, আমরা বিল্ট-ইন পান্ডাস লাইব্রেরি ব্যবহার করে বিভিন্ন টাইমস্ট্যাম্প তৈরি এবং প্রক্রিয়াকরণ সম্পর্কে শিখব। টাইমস্ট্যাম্প জেনারেশনের জন্য প্রয়োজনীয় ডাটাবেস তৈরি এবং পরিবর্তন করতে আমরা নম্পি মডিউলও ব্যবহার করছি।

পছন্দযোগ্য IDE:জুপিটার নোটবুক

এই টিউটোরিয়ালটি শুরু করার আগে আমাদের অবশ্যই পান্ডা এবং নম্পি লাইব্রেরি ইনস্টল করতে হবে। এই জুপিটার নোটবুক আপনার কোড পরীক্ষা এবং চালানোর জন্য সেরা জায়গা। পান্ডা ইনস্টল করার জন্য আমাদের অবশ্যই নিম্নলিখিত কমান্ডটি চালাতে হবে।

>>> pip install pandas

যদি আমরা এই কমান্ডটি চালাই তবে সমস্ত নির্ভরতা স্বয়ংক্রিয়ভাবে ইনস্টল হয়ে যায়৷ এটি সম্পন্ন হওয়ার পরে আমাদের পরিবর্তনগুলি দেখতে কার্নেলটি পুনরায় চালু করতে হবে৷

আমরা সমস্ত নির্ভরতা ইনস্টল করা শেষ করার পরে আমরা 'p' হিসাবে পান্ডা আমদানি করতে পারি।

এখানে আমরা ডেটা ফ্রেম কনস্ট্রাক্টরকে কল করি এবং তারিখ আর্গুমেন্ট থেকে পিরিয়ড 4 এবং ফ্রিকোয়েন্সি 2 ঘন্টা সহ একটি ডাটাবেস শুরু করি। কী 'সময়' নির্দিষ্ট করে আমরা ডাটাবেস প্রদর্শন করছি।

>>> pip install pandas
>>> import pandas as p
>>> data_struct = p.DataFrame()
>>> data_struct['time'] = p.date_range('14/7/2019', periods = 4, freq='3H')
>>> print(data_struct['time'])
0 2019-07-14 00:00:00
1 2019-07-14 03:00:00
2 2019-07-14 06:00:00
3 2019-07-14 09:00:00
Name: time, dtype: datetime64[ns]

.dt.ব্যবহার করে ফিচারগুলো বের করা হয়। হেড() পদ্ধতি ব্যবহার করে আমরা ডাটাবেস থেকে সমস্ত সারি প্রদর্শন করি।

>>> data_struct['year'] = data_struct['time'].dt.year
>>> data_struct.head(4)
   time
0 2019-07-14 00:00:00 2019
1 2019-07-14 03:00:00 2019
2 2019-07-14 06:00:00 2019
3 2019-07-14 09:00:00 2019

এখানে আমরা টাইম স্ট্রিং তৈরি করতে numpy মডিউলে উপস্থিত .array() ফাংশন প্রয়োগ করেছি৷ এই স্ট্রিংগুলি পান্ডাস লাইব্রেরিতে .to_datetime() পদ্ধতি ব্যবহার করে DateTime-এ রূপান্তরিত হয়৷

>>> import numpy as n
>>> dt_timestring = n.array(['14-07-2019 07:26 AM', '13-07-2019 11:01 PM'])
>>> timestamps = [p.to_datetime(date, format ="%d-%m-%Y %I:%M %p", errors ="coerce") for date in dt_timestring]
>>> print(timestamps)
[Timestamp('2019-07-14 07:26:00'), Timestamp('2019-07-13 23:01:00')]

এখানে আমরা তারিখের সাথে ডেটাবেস ইন্ডেক্স করছি যার মানে .set_index() পদ্ধতি ব্যবহার করে প্রথমে 'তারিখ' ফিল্ডটি প্রদর্শিত হবে।

>>> data_struct1 = p.DataFrame()
>>> data_struct1['date'] = p.date_range('18/07/2019', periods = 5, freq ='2H')
>>> data_struct1= data_struct1.set_index(data_struct1['date'])
>>> print(data_struct1.head(5))
   date
date
2019-07-18 00:00:00 2019-07-18 00:00:00
2019-07-18 02:00:00 2019-07-18 02:00:00
2019-07-18 04:00:00 2019-07-18 04:00:00
2019-07-18 06:00:00 2019-07-18 06:00:00
2019-07-18 08:00:00 2019-07-18 08:00:00

আমরা যদি ডাটাবেস থেকে শুধুমাত্র একটি নির্দিষ্ট ডেটাসেট প্রদর্শন করতে চাই তবে আমরা নীচে আলোচনা করা কমান্ডগুলি প্রয়োগ করতে পারি -

>>> data_struct2 = p.DataFrame()
>>> data_struct2['date'] = p.date_range('17/07/2019', periods =3, freq ='4H')
>>> print(data_struct2.head(5))
   date
0 2019-07-17 00:00:00
1 2019-07-17 04:00:00
2 2019-07-17 08:00:00
>>> inp = data_struct2[(data_struct2['date'] > '2019-07-17 04:00:00')]
>>> print(inp)
   date
2 2019-07-17 08:00:00

উপসংহার

এই নিবন্ধে, আমরা শিখেছি কিভাবে আমরা বিভিন্ন উপায়ে টিপল প্যাক এবং আনপ্যাক করতে পারি।


  1. ম্যাটপ্লটলিবের সাথে পান্ডাস ডেটাফ্রেমের জন্য একটি লাইন গ্রাফ প্লট করবেন?

  2. পাইথন - ম্যাটপ্লটলিবের সাথে পান্ডাস ডেটাফ্রেমের জন্য একটি হিস্টোগ্রাম প্লট করবেন?

  3. কিভাবে Matplotlib এর সাথে একটি পান্ডাস ডেটাফ্রেম প্লট করবেন?

  4. Python Pandas - একটি ডেটাফ্রেমের সমস্ত NaN উপাদান 0s দিয়ে প্রতিস্থাপন করুন