ডেটা বিশ্লেষণের জগতে, স্প্রেডশীটগুলির ব্যবহার সাধারণ, বিশেষ করে যখন একটি কলামার বিন্যাসে কাঠামোগত ডেটা নিয়ে কাজ করা হয়। পাইথনে স্প্রেডশীট ডেটা নিয়ে কাজ করার জন্য জনপ্রিয় লাইব্রেরিগুলির মধ্যে একটি হল পান্ডাস। এই শক্তিশালী লাইব্রেরি ডেভেলপারদের সহজে ট্যাবুলার ডেটা পড়তে, ম্যানিপুলেট করতে এবং এক্সপোর্ট করতে দেয়। এই নিবন্ধে, আমরা একটি নির্দিষ্ট সমস্যার উপর ফোকাস করব: পান্ডাস ব্যবহার করে কলামের নাম দ্বারা একটি শীটে সেল আপডেট করা। আমরা সমাধানের মধ্যে ডুব দেব, তারপরে কোডের ধাপে ধাপে ব্যাখ্যা করব, এবং অবশেষে পান্ডাসে সম্পর্কিত ধারণা এবং কার্যকারিতা নিয়ে আলোচনা করব, যেমন সূচীগুলির সাথে কাজ করা এবং ডেটা নির্বাচন করা। চল শুরু করা যাক.
পান্ডা ব্যবহার করে কলামের নাম অনুসারে সেল আপডেট করা হচ্ছে
কলামের নাম দ্বারা একটি শীটে সেল আপডেট করতে, আমাদের প্রথমে পান্ডাস লাইব্রেরি ইনস্টল করতে হবে যদি এটি ইতিমধ্যে নিম্নলিখিত কমান্ড ব্যবহার করে ইনস্টল করা না থাকে:
!pip install pandas
পান্ডাস ইনস্টল করার সাথে, কলামের নাম অনুসারে একটি শীটে সেল আপডেট করার পদক্ষেপগুলি রূপরেখা দেওয়া যাক:
1. একটি DataFrame অবজেক্টে শীট লোড করুন।
2. আমরা যে কক্ষগুলি আপডেট করতে চাই সেগুলি অ্যাক্সেস করুন৷
3. নতুন মান বরাদ্দ করে পছন্দসই কক্ষগুলি পরিবর্তন করুন।
4. DataFrame অবজেক্টটিকে শীটে আবার সংরক্ষণ করুন।
এখানে একটি কোড স্নিপেট যা একটি সহজ উদাহরণ সহ সমাধানটি প্রদর্শন করে:
import pandas as pd
# Load data from a CSV file into a DataFrame object
df = pd.read_csv('your_spreadsheet.csv')
# Access and update the desired cells - let's update column 'Age' by adding 1 to each value
df['Age'] = df['Age'] + 1
# Save the updated DataFrame back to the CSV file
df.to_csv('your_updated_spreadsheet.csv', index=False)
কোড বোঝা
প্রথম ধাপ হল 'pd' নামে পান্ডাস লাইব্রেরি আমদানি করা। এর পরে, ইনপুট ফাইলের নাম ('your_spreadsheet.csv') উল্লেখ করে `pd.read_csv()` ফাংশন ব্যবহার করে একটি CSV ফাইল থেকে ডেটা ফ্রেম অবজেক্টে লোড করতে হবে।
এখন সমস্যার মূল অংশটি আসে: পছন্দসই কোষগুলি অ্যাক্সেস এবং আপডেট করা। এই উদাহরণে, আমরা কলামের প্রতিটি মানের সাথে 1 যোগ করে 'বয়স' কলাম আপডেট করতে চাই। আমরা কেবল 'বয়স' কলামে 1 যোগ করে এটি করি, যা সিনট্যাক্স `df['Age']` ব্যবহার করে অ্যাক্সেস করা হয়। এই কোডটি 'বয়স' কলামে প্রতিটি আইটেমের সাথে 1টির উপাদান-ভিত্তিক যোগ সম্পাদন করবে।
অবশেষে, আউটপুট ফাইলের নাম ('your_updated_spreadsheet.csv') সহ `df.to_csv()` ফাংশন ব্যবহার করে আমরা আপডেট করা ডেটাফ্রেমটিকে CSV ফাইলে আবার সংরক্ষণ করি। আউটপুট ফাইলে সারি নম্বর লেখা এড়াতে `সূচী=ফলস` প্যারামিটার ব্যবহার করা হয়।
পান্ডাস ইনডেক্স এবং সিলেক্টিং ডেটা
পান্ডা ডেটা নির্বাচন এবং ম্যানিপুলেট করার জন্য সূচকের ধারণার উপর অনেক বেশি নির্ভর করে। ডিফল্টরূপে, একটি ফাইল থেকে ডেটা লোড করার সময়, পান্ডাস একটি বরাদ্দ করে সংখ্যাসূচক সূচক ডেটাফ্রেমের প্রতিটি সারিতে, 0 থেকে শুরু করে। পান্ডাসে ডেটা নিয়ে কাজ করার সময়, এর বিভিন্ন উপায় বোঝা অপরিহার্য ডেটা নির্বাচন এবং ফিল্টারিং সূচক মান বা কলাম নামের উপর ভিত্তি করে।
উদাহরণস্বরূপ, একটি নির্দিষ্ট সারি বা সারি নির্বাচন করতে, আপনি `iloc` সূচক ব্যবহার করতে পারেন, যা আপনাকে তাদের পূর্ণসংখ্যা সূচকের উপর ভিত্তি করে সারিগুলি অ্যাক্সেস করতে দেয়:
# Select the first row of the DataFrame first_row = df.iloc[0] # Select rows 1 to 3 (excluding 3) rows_1_to_2 = df.iloc[1:3]
যখন আপনাকে একটি নির্দিষ্ট অবস্থার উপর ভিত্তি করে কক্ষগুলি আপডেট করতে হবে, যেমন শুধুমাত্র সেই সারিগুলির জন্য 'বয়স' কলাম আপডেট করা যেখানে অন্য কলামের (যেমন, 'শহর') একটি নির্দিষ্ট মান রয়েছে, আপনি বুলিয়ান ইনডেক্সিং ব্যবহার করতে পারেন:
# Update the 'Age' column by adding 1, only for rows where 'City' is equal to 'New York' df.loc[df['City'] == 'New York', 'Age'] = df['Age'] + 1
এই উদাহরণে, বুলিয়ান অবস্থার উপর ভিত্তি করে সারি নির্বাচন করতে `loc` সূচক ব্যবহার করা হয় এবং তারপর 'বয়স' কলাম আপডেট করা হয়।
মনে রাখবেন যে পান্ডাসে ডেটা নিয়ে কাজ করার ক্ষেত্রে এটি কেবল আইসবার্গের টিপ। লাইব্রেরি আপনার ডেটা দক্ষতার সাথে ম্যানিপুলেট, বিশ্লেষণ এবং কল্পনা করার জন্য প্রচুর ফাংশন এবং কৌশল সরবরাহ করে। বুনিয়াদি বোঝা, যেমন কলামের নাম অনুসারে একটি শীটে সেল আপডেট করা, ভবিষ্যতে আরও জটিল ডেটা স্ট্রাকচার এবং বিশ্লেষণের কাজগুলির সাথে কাজ করার জন্য একটি শক্তিশালী ভিত্তি স্থাপন করে৷