কখনও কখনও ডেটা বিশ্লেষণে একটি স্ট্রিংকে একটি সংখ্যায় (int/float) রূপান্তর করার প্রয়োজন হয়। প্রতিটি স্ট্রিংয়ের জন্য, আমরা স্ট্রিং মানগুলিকে আলাদা করার জন্য একটি অনন্য পূর্ণসংখ্যা মান নির্ধারণ করতে পারি।
এর জন্য, আমরা কমা বিভক্ত মান (CSV) ফাইলগুলিতে ডেটা ব্যবহার করি। বলুন আমাদের একটি এক্সেল ফাইল আছে যাতে CSV ডেটা অনুসরণ করা হয় −
কোম্পানি | শিল্প | সুপারিশ |
---|---|---|
HDFC ব্যাঙ্ক | অর্থ | ধরুন |
অ্যাপোলো | স্বাস্থ্যসেবা | কিনুন |
হিরো | অটোমোবাইল | আন্ডারপারফর্ম |
ইয়েস ব্যাঙ্ক | অর্থ | ধরুন |
M&M | অটোমোবাইল | আন্ডারপারফর্ম |
ফর্টিস | স্বাস্থ্যসেবা | কিনুন |
মারুতি | অটোমোবাইল | আন্ডারপারফর্ম |
উপরে একটি বৃহৎ ডেটাসেট থেকে মাত্র কয়েকটি লাইন, আমাদের বিভিন্ন সুপারিশ দিতে হবে। বাই, হোল্ড, আন্ডারপারফর্ম ইত্যাদি পূর্ণসংখ্যার মান, যা আমাদের মেটাডেটার সাথে লিঙ্ক করবে। সুতরাং উপরের ইনপুটের জন্য, আমাদের প্রত্যাশিত আউটপুট −
এর মত হবেকোম্পানি | শিল্প | সুপারিশ |
---|---|---|
HDFC ব্যাঙ্ক | অর্থ | 2 |
অ্যাপোলো | স্বাস্থ্যসেবা | 1 |
হিরো | অটোমোবাইল | 3 |
ইয়েস ব্যাঙ্ক | অর্থ | 2 |
M&M | অটোমোবাইল | 3 |
ফর্টিস | স্বাস্থ্যসেবা | 1 |
মারুতি | অটোমোবাইল | 3 |
এখানে আমাদের স্ট্রিং (কলামের মান) পূর্ণসংখ্যাতে প্রতিস্থাপন করার একটি উপায় রয়েছে।
কোড 1
#Import required library import pandas as pd #Import the CSV file into Python using read_csv() from pandas dataframe = pd.read_csv("data_pandas1.csv") #Create the dictionary of key-value pair, where key is #your old value(string) and value is your new value(integer). Recommendation = {'Buy': 1, 'Hold': 2, 'Underperform': 3} #Assign these different key-value pair from above dictiionary to your table dataframe.Recommendation = [Recommendation[item] for item in dataframe.Recommendation] #New table print(dataframe)
ফলাফল
Company Industry Recommendation 0 HDFC Bank Finance 2 1 Apollo Healthcare 1 2 Hero Automobile 3 3 Yes Bank Finance 2 4 M&M Automobile 3 5 Fortis Healthcare 1 6 Maruti Automobile 3
উপরের কোড লেখার আরেকটি উপায় আছে, যেখানে আমরা একটি অভিধানের সাথে ডিল করি না বরং শর্ত মেলে তবে আমরা কলাম ফিল্ডে (এখানে সুপারিশগুলি) সরাসরি অন্য মান বরাদ্দ করি।
#Import required library import pandas as pd #Import the CSV file into Python using read_csv() from pandas dataf = pd.read_csv("data_pandas1.csv") #Directly assigning individual fields of Recommendation column different integer value #if condition matches .i.e.In the dataframe, recommendation columns we have "Buy" we'll assign # integer 1 to it. dataf.Recommendation[data.Recommendation =='Buy'] =1 dataf.Recommendation[data.Recommendation =='Hold'] =2 dataf.Recommendation[data.Recommendation =='Underperform'] =3 print(dataf)
ফলাফল
Company Industry Recommendation 0 HDFC Bank Finance 2 1 Apollo Healthcare 1 2 Hero Automobile 3 3 Yes Bank Finance 2 4 M&M Automobile 3 5 Fortis Healthcare 1 6 Maruti Automobile 3
উপরে আমি আপনার টেবিলে (csv ফরম্যাট ফাইল) একটি পূর্ণসংখ্যা মানতে স্ট্রিং ডেটা প্রতিস্থাপন করার একমাত্র উপায় উল্লেখ করেছি এবং এমন অনেক উদাহরণ রয়েছে যখন আপনার ডেটা ক্ষেত্রটি স্ট্রিং থেকে পূর্ণসংখ্যাতে পরিবর্তন করার জন্য একই প্রয়োজন হয়৷