কম্পিউটার

কেন ডেটা মাইনিংয়ে পরিসংখ্যান প্রয়োজন?


পরিসংখ্যান হল ডেটা থেকে শেখার বিজ্ঞান। এতে রেকর্ডের সেটের পরিকল্পনা এবং পরবর্তী ডেটা অ্যাডমিনিস্ট্রেশন থেকে শুরু করে লাইনের শেষের ক্রিয়াকলাপগুলি রয়েছে যার মধ্যে ডেটা বলা হয় এবং ফলাফলের উপস্থাপনা নামক সংখ্যাগত তথ্য থেকে অনুমান আঁকা। পরিসংখ্যান মানুষের জন্য সবচেয়ে প্রয়োজনীয় বিষয়গুলির সাথে সম্পর্কিত:বিশ্ব সম্পর্কে আরও আবিষ্কার করার প্রয়োজন এবং এটি কীভাবে উদ্ভাবন এবং অনিশ্চয়তার মুখে কাজ করে৷

তথ্য হল জ্ঞানের যোগাযোগ। ডেটাকে অপরিশোধিত ডেটা হিসাবে উল্লেখ করা হয় এবং নিজের দ্বারা জ্ঞান নয়। ডেটা থেকে জ্ঞানের ক্রমটি নিম্নরূপ:ডেটা থেকে তথ্য পর্যন্ত (তথ্যগুলি যখন সিদ্ধান্তের সমস্যার সাথে প্রাসঙ্গিক হয়ে ওঠে তখন তথ্যে বিকাশ ঘটে); তথ্য থেকে তথ্যে (তথ্য যখন তথ্যকে সমর্থন করতে পারে তখন তথ্য হয়ে ওঠে) এবং অবশেষে, তথ্য থেকে জ্ঞানে (তথ্যগুলি জ্ঞানে পরিণত হয় যখন সিদ্ধান্ত প্রক্রিয়ার সফল প্রতিযোগিতায় ব্যবহার করা হয়)।

পরিসংখ্যান একটি পদ্ধতিগত প্রমাণ ভিত্তির উপর জ্ঞান স্থাপন প্রয়োজন থেকে উদ্ভূত. এর জন্য সম্ভাবনার আইন, ডেটা বৈশিষ্ট্য এবং সম্পর্কগুলির কম্পিউটিংয়ের বিকাশ ইত্যাদির একটি অধ্যয়নের প্রয়োজন ছিল৷

পরিসংখ্যান সাংখ্যিক রেকর্ডের বিশ্লেষণ এবং উপস্থাপনাকে সংজ্ঞায়িত করে, যা সমস্ত ডেটা মাইনিং অ্যালগরিদমের অপরিহার্য উপাদান। এটি বিপুল পরিমাণ ডেটা মোকাবেলা করার জন্য সরঞ্জাম এবং বিশ্লেষণ পদ্ধতি সমর্থন করে। পরিসংখ্যান পরিকল্পনা, নকশা, তথ্য সংগ্রহ, বিশ্লেষণ এবং গবেষণা ফলাফল রিপোর্টিং অন্তর্ভুক্ত করে। কারণ এই পরিসংখ্যানগুলি শুধুমাত্র গণিতে সংজ্ঞায়িত করা হয় না, তবে একজন ব্যবসায়িক বিশ্লেষক ব্যবসায়িক সমস্যা সমাধানের জন্য পরিসংখ্যান ব্যবহার করেন।

জনসংখ্যার পরামিতিগুলির মান অনুমান করার জন্য একটি নমুনার জন্য অনুমানীয় পরিসংখ্যান ব্যবহার করা হয়। দুটি ডেটাসেট একই বা অসম কিনা তা দেখার জন্য এটি হাইপোথিসিস পরীক্ষা চালাতে পারে। এটি কার্যকারণ ব্যাখ্যা করার জন্য লিনিয়ার- বা একাধিক-রিগ্রেশন বিশ্লেষণ পরিচালনা করতে ব্যবহৃত হয়।

হাইপোথিসিস টেস্টিং সাংখ্যিকভাবে দুটি ডেটাসেটের তুলনা করতে পারে। উদাহরণস্বরূপ, এটি অনুভব করতে পারে (অনুমান করা) যে এই বিক্রয়ের পরিমাণ একই, বা প্রধান প্রতিযোগীর তুলনায় ভাল। এই অনুমানকে গাণিতিকভাবে নিশ্চিত বা প্রত্যাখ্যান করতে এটি হাইপোথিসিস টেস্টিং ব্যবহার করতে পারে।

পারস্পরিক সম্পর্ক বিশ্লেষণ হল একটি সহজ হাতিয়ার যা বিভিন্ন র‍্যান্ডম ভেরিয়েবল থেকে আগ্রহের ভেরিয়েবলগুলিকে বিচ্ছিন্ন করার জন্য, যা প্রায়শই বিশাল ডেটাসেটে পরিলক্ষিত হয়, কোন ব্যবসার ভেরিয়েবলগুলি কাঙ্ক্ষিত ব্যবসায়িক ফলাফলকে উল্লেখযোগ্যভাবে প্রভাবিত করে তা দেখতে৷

বেশ কিছু পরিসংখ্যান মান নিয়ন্ত্রণের জন্য চার্ট প্রস্তুত করতে ব্যবহার করা যেতে পারে, যার মধ্যে রয়েছে Shewhart চার্ট এবং কাসুম চার্ট (যা উভয়ই গ্রুপ সারাংশ পরিসংখ্যান প্রদর্শন করে)। এই পরিসংখ্যানগুলিতে গড়, মানক বিচ্যুতি, পরিসর, গণনা, চলমান গড়, চলমান মান বিচ্যুতি এবং চলমান পরিসীমা রয়েছে৷


  1. ওয়েব স্ট্রাকচার মাইনিং কি?

  2. টেম্পোরাল ডেটা মাইনিং কি?

  3. স্প্যাটিওটেম্পোরাল ডেটা মাইনিং কি?

  4. কেন আমাদের ডেটা এনক্রিপশন দরকার?