কম্পিউটার

হাডুপ ইকোসিস্টেম বেসিকস:পার্ট 1

মূলত Tricore দ্বারা প্রকাশিত:জুলাই 10, 2017

Apache™ Hadoop® হল একটি ওপেন সোর্স, জাভা-ভিত্তিক ফ্রেমওয়ার্ক যা একটি বিতরণ করা কম্পিউটিং পরিবেশে বিপুল পরিমাণ ডেটা প্রক্রিয়া করার জন্য ডিজাইন করা হয়েছে। ডগ কাটিং এবং মাইক ক্যাফেরেলা হাডুপ তৈরি করেছেন, যা 2005 সালে প্রকাশিত হয়েছিল।

কমোডিটি হার্ডওয়্যারের উপর নির্মিত, হাডুপ মৌলিক অনুমানের উপর কাজ করে যে হার্ডওয়্যার ব্যর্থতা সাধারণ। Hadoop ফ্রেমওয়ার্ক এই ব্যর্থতাগুলিকে সম্বোধন করে৷

এই দুই-অংশের ব্লগ সিরিজের পার্ট 1-এ, আমরা বিগ ডেটা, হ্যাডোপিকোসিস্টেম এবং হ্যাডোপ ফ্রেমওয়ার্কের কিছু মূল উপাদান কভার করব।

ডেটা আগের চেয়ে বড়

সমস্ত সংস্থার জন্য ডেটা অত্যন্ত গুরুত্বপূর্ণ, এবং বড় ডেটা বিশ্লেষণের জন্য নতুন সুযোগ উন্মুক্ত করছে যা মূল্যবান ব্যবসায়িক অন্তর্দৃষ্টির দিকে নিয়ে যেতে পারে। বিগডাটা একটি প্রতিষ্ঠানের স্টোরেজ ক্ষমতা এবং প্রক্রিয়াকরণ ক্ষমতার বাইরের ডেটাকে বোঝায়।

সোশ্যাল নেটওয়ার্ক, ক্লোজড ক্যাপশন টেলিভিশন (সিসিটিভি) ক্যামেরা, সেন্সর, অনলাইন শপিং পোর্টাল, আতিথেয়তা ডেটা, গ্লোবাল পজিশনিং সিস্টেম (জিপিএস), অটোমোবাইল ইন্ডাস্ট্রি এবং অন্যান্য উৎস থেকে বিগ ডেটার উৎপত্তি হতে পারে যা বিপুল পরিমাণ তথ্য তৈরি করে।

বিগ ডেটার তিনটি প্রধান দিক রয়েছে, যার সবকটিই অগ্রগতির গতিতে চলছে:

  • ভলিউম :গিগাবাইট টোটেরাবাইট এবং পেটাবাইট থেকে বড় ডেটার পরিমাণ দ্রুত বাড়ছে৷ এটি সংরক্ষণ করার জন্য প্রচুর পরিমাণে ডিস্ক স্থান প্রয়োজন৷

  • বেগ :বড় ডেটা সাধারণত ডেটা সেন্টারে সংরক্ষণ করা হয়। একটি স্থানীয় ওয়ার্ক স্টেশনে ডেটা সরবরাহ করার জন্য উচ্চ-গতির ডেটা প্রসেসরের প্রয়োজন৷

  • বৈচিত্র্য :ডেটাকে বিস্তৃতভাবে স্ট্রাকচার্ড, আনস্ট্রাকচার্ড, বা সেমি-স্ট্রাকচার্ড হিসাবে শ্রেণীবদ্ধ করা যেতে পারে।

আমরা নিম্নলিখিত সমীকরণের সাথে বড় ডেটা যোগ করতে পারি:

বিগ ডেটা =ডেটার (ভলিউম + বেগ + বিভিন্নতা)

নিম্নলিখিত চিত্রটি এই ধারণাগুলির একটি ভিজ্যুয়ালাইজেশন প্রদান করে।

হাডুপ ইকোসিস্টেম বেসিকস:পার্ট 1 3Vs (আয়তন, বিভিন্নতা এবং বেগ

ছবির উৎস:3Vs (ভলিউম, বৈচিত্র্য এবং বেগ)

The Hadoop ইকোসিস্টেম

শব্দটি হাদুপ ইকোসিস্টেম Apache Hadoop সফ্টওয়্যার লাইব্রেরির বিভিন্ন উপাদানকে বোঝায়। এই ইকোসিস্টেম বিভিন্ন মডিউলের একটি সেট নিয়ে গঠিত যা একে অপরের সাথে যোগাযোগ করে। এই মডিউলগুলি সরঞ্জাম এবং আনুষাঙ্গিকগুলির সম্পদ সরবরাহ করে যা বড় ডেটা প্রক্রিয়াকরণের সাথে জড়িত অনন্য প্রয়োজনীয়তাগুলিকে সমাধান করার জন্য ডিজাইন করা হয়েছে। ইকোসিস্টেম সমস্ত হাডুপ মডিউলগুলিকে অন্তর্ভুক্ত করে, যার মধ্যে হাডুপ ফ্রেমওয়ার্কের মূল উপাদানগুলি রয়েছে যা নীচে আলোচনা করা হয়েছে, সেইসাথে অ্যাড-অন মডিউলগুলি৷

হাদুপ ফ্রেমওয়ার্কের উপাদান

Hadoop ফ্রেমওয়ার্ক নিম্নলিখিত মূল উপাদান অন্তর্ভুক্ত.

ডিস্ট্রিবিউটেড স্টোরেজ

Hadoop-এ বিতরণ করা সঞ্চয়স্থান সক্ষম করতে বেশ কয়েকটি ভিন্ন অংশ একত্রিত হয়।

Hadoop বিতরণ করা ফাইল সিস্টেম

Hadoop-এ, বিতরণ করা স্টোরেজকে Hadoop ডিস্ট্রিবিউটেড ফাইলসিস্টেম (HDFS) বলা হয়। এই সিস্টেমটি অপ্রয়োজনীয় সঞ্চয়স্থান প্রদান করে এবং এর নিম্নলিখিত বৈশিষ্ট্য রয়েছে:

  • এটি পণ্য হার্ডওয়্যারে নির্ভরযোগ্যভাবে ডেটা সংরক্ষণ করার জন্য ডিজাইন করা হয়েছে৷

  • এটি হার্ডওয়্যার ব্যর্থতা আশা করার জন্য তৈরি করা হয়েছে৷

  • এটা বড় ফাইল এবং ব্যাচ সন্নিবেশ জন্য উদ্দেশ্যে করা হয়. (একবার লিখুন, অনেকবার পড়ুন।)

HBase

HBase হল একটি বিতরণ করা, কলাম-ভিত্তিক NoSQL ডাটাবেস। HBase অন্তর্নিহিত স্টোরেজের জন্য HDFS ব্যবহার করে এবং ম্যাপরিডুস এবং পয়েন্ট কোয়েরি (এলোমেলোভাবে পড়া) ব্যবহার করে উভয় ব্যাচ-স্টাইল কম্পিউটেশন সমর্থন করে।

HBase নিম্নলিখিত কাজগুলিও সম্পাদন করে:

  • কমোডিটি হার্ডওয়্যারের ক্লাস্টারের উপরে বড় ডেটা ভলিউম (বিলিয়ন সারি পর্যন্ত) সঞ্চয় করে।

  • প্রচুর পরিমাণে লগ, নথি, রিয়েল-টাইম অ্যাক্টিভিটি ফিড এবং কাঁচা আমদানি করা ডেটা সঞ্চয় করে।

  • হ্যাডুপ অ্যাপ্লিকেশনগুলি ব্যবহার করে এমন ডেটাতে ধারাবাহিকভাবে পঠন এবং লিখন সম্পাদন করে।

  • MapReducefunctionality ব্যবহার করে ডেটা স্টোরকে একত্রিত বা প্রক্রিয়াকরণ করতে সক্ষম করে।

  • বিশ্লেষণ এবং মেশিন লার্নিংয়ের জন্য একটি ডেটা প্ল্যাটফর্ম অফার করে।

HCatalog

HCatalog হল Hadoop-এর জন্য একটি টেবিল এবং স্টোরেজ ম্যানেজমেন্ট লেয়ার যা হ্যাডুপ অ্যাপ্লিকেশন যেমন Pig™, MapReduce এবং Hive™ কে ফাইলের বিপরীতে একটি ট্যাবুলার ফরম্যাটে ডেটা পড়তে এবং লিখতে সক্ষম করে।

এটি নিম্নলিখিত বৈশিষ্ট্যগুলিও অফার করে:

  • Hadoop অ্যাপ্লিকেশন ব্যবহার করে ডেটা সংরক্ষণের জন্য একটি কেন্দ্রীভূত অবস্থান৷

  • ক্রমানুসারে এবং পুনরাবৃত্তি করা Hadoop প্রক্রিয়াগুলির জন্য একটি পুনঃব্যবহারযোগ্য ডেটা স্টোর।

  • রিলেশনাল অ্যাবস্ট্রাকশনে ডেটা স্টোরেজ।

  • মেটাডেটা ব্যবস্থাপনা।

ডিস্ট্রিবিউটেড প্রসেসিং

Hadoop MapReduce এবং তবুও অন্য রিসোর্স নেগোসিয়েটর (YARN) এর উপর নির্ভর করে যাতে বিতরণ প্রক্রিয়াকরণ সক্ষম হয়।

MapReduce

MapReduce হল একটি বিতরণকৃত ডেটা প্রসেসিং মডেল এবং এক্সিকিউশন এনভায়রনমেন্ট যা কমোডিটি মেশিনের বড় ক্লাস্টারে চলে। MapReduce আপনাকে আপনার সংরক্ষিত ডেটা থেকে অন্তর্দৃষ্টি তৈরি করতে সক্ষম করে। এটি ম্যাপরিডুস অ্যালগরিদম ব্যবহার করে সমস্ত ক্রিয়াকলাপগুলিকে মানচিত্রে বা হ্রাস ফাংশনে বিভক্ত করতে৷

MapReduce নিম্নলিখিত সুবিধাগুলি অফার করে:

  • বৃহৎ এবং ভিন্ন ভিন্ন ডেটাসেটের সমষ্টি (গণনা, সাজানো এবং ফিল্টারিং)।

  • মানচিত্রের মাপযোগ্য সমান্তরালতা বা কাজগুলি হ্রাস করুন।

  • বিতরণ করা টাস্ক এক্সিকিউশন।

সুতা

YARN হল Apache Hadoopecosystem এর জন্য ক্লাস্টার এবং রিসোর্স ম্যানেজমেন্ট লেয়ার। এটি হ্যাডোপ ফ্রেমওয়ার্কের দ্বিতীয় প্রজন্মের অন্যতম প্রধান বৈশিষ্ট্য।

YARN নিম্নলিখিত কার্যকারিতা অফার করে:

  • এটি কাজগুলিকে অগ্রাধিকার দেওয়ার জন্য অ্যাপ্লিকেশনগুলির সময়সূচী করে এবং বড় ডেটা অ্যানালিটিক্স সিস্টেমগুলি বজায় রাখে৷

  • একটি বৃহত্তর আর্কিটেকচারের একটি অংশ হিসাবে, YARN ডেটা পুনরুদ্ধারের জন্য নির্দিষ্ট প্রশ্নগুলি পরিচালনা করতে ডেটা একত্রিত করে এবং সাজায়৷

  • এটি নির্দিষ্ট অ্যাপ্লিকেশনগুলিতে সংস্থান বরাদ্দ করতে এবং অন্যান্য ধরণের সংস্থান পর্যবেক্ষণের কাজগুলি পরিচালনা করতে সহায়তা করে৷

মেশিন লার্নিং

Hadoop Apache Mahout এর মাধ্যমে মেশিন লার্নিং সমর্থন করে, একটি ওপেন সোর্স প্রজেক্ট যা প্রাথমিকভাবে স্কেলযোগ্য মেশিন লার্নিং অ্যালগরিদম তৈরি করতে ব্যবহৃত হয়। মাহাউটি একটি ডেটা মাইনিং ফ্রেমওয়ার্ক যা সাধারণত পটভূমিতে হ্যাডূপ পরিকাঠামোর সাথে প্রচুর পরিমাণে ডেটা পরিচালনা করে৷

মাহুত নিম্নলিখিত ক্ষমতাগুলি অফার করে:

  • ডেটার বৃহত্তর ভলিউমে ডেটা মাইনিং কার্য সম্পাদনের জন্য একটি ব্যবহারের জন্য প্রস্তুত কাঠামো৷

  • হ্যাডুপের উপরে লেখা অ্যালগরিদম এবং যা মাহাউটকে বিতরণ করা পরিবেশে কাজ করতে সক্ষম করে।

  • বড় ডেটা সেটের দ্রুত বিশ্লেষণ।

  • বিবর্তনীয় প্রোগ্রামিংয়ের জন্য ফিটনেস ফাংশন ক্ষমতা বিতরণ করা হয়েছে। এটিতে ম্যাট্রিক্স এবং ভেক্টর লাইব্রেরিও রয়েছে।

ওয়ার্কফ্লো পর্যবেক্ষণ এবং সময়সূচী

Oozie কাজ পরিচালনার জন্য Hadoop এর সিস্টেম। এই ওয়ার্কফ্লো সময়সূচী নির্ভরশীল কাজের জন্য ওয়ার্কফ্লো চালায়। এটি ব্যবহারকারীদের ওয়ার্কফ্লোগুলির নির্দেশিত অ্যাসাইক্লিকগ্রাফ (DAGs) তৈরি করতে সক্ষম করে যা হ্যাডুপে সমান্তরাল এবং অনুক্রমিক কাজগুলি চালায়৷

ওজি খুব নমনীয়। আপনি সহজেই কাজগুলি শুরু করতে, বন্ধ করতে, স্থগিত করতে এবং পুনরায় চালাতে পারেন৷ Oozie ব্যর্থ কর্মপ্রবাহগুলিকে পুনরায় চালানো খুব সহজ করে তোলে৷

Oozie স্কেলযোগ্য এবং একটি Hadoop ক্লাস্টারে হাজার হাজার ওয়ার্কফ্লো (প্রতিটি কয়েক ডজন কাজ সমন্বিত) সময়মত সম্পাদন করতে পারে।

স্ক্রিপ্টিং

বিকাশকারীরা Hadoop এ স্ক্রিপ্টিংয়ের জন্য Apache Pig ব্যবহার করতে পারে। স্ক্রিপ্টিং জটিল MapReduce ট্রান্সফরমেশন তৈরির জন্য এসকিউএল-ভিত্তিক ভাষা এবং একটি কার্যকরী পরিবেশ ব্যবহার করে। যদিও পিগ পিগ ল্যাটিন কোডিং ভাষায় লেখা হয়, এটি এক্সিকিউটেবল MapReduce চাকরিতে অনুবাদ করা হয়। পিগ জাভা ব্যবহার করে ব্যবহারকারীদের এক্সটেন্ডেড বা ইউজার-ডিফাইনড ফাংশন (UDFs) তৈরি করতে সক্ষম করে।

পিগ নিম্নলিখিত জিনিসগুলিও অফার করে:

  • এক্সট্র্যাক্ট-ট্রান্সফর্ম-লোড (ETL) কাজ এবং HDFS-এ কাঁচা ডেটার পদ্ধতিগুলি সম্পাদনের জন্য একটি স্ক্রিপ্টিং পরিবেশ।

  • জটিল মানচিত্র হ্রাস ফাংশন তৈরি এবং চালানোর জন্য একটি SQL-ভিত্তিক ভাষা৷

  • ডেটা প্রসেসিং, স্টিচিং এবং স্কিম্যাটাইজিং বড় এবং ভিন্ন ডেটাসেটগুলিতে৷

  • একটি উচ্চ-স্তরের ডেটা প্রবাহের ভাষা।

  • বিমূর্ততার একটি স্তর যা আপনাকে ডেটা প্রক্রিয়াকরণে ফোকাস করতে সক্ষম করে।

উপসংহার

Hadoop এবং MapReduce ফ্রেমওয়ার্কের ইতিমধ্যেই বায়োইনফরমেটিক্স সম্প্রদায়ের একটি উল্লেখযোগ্য ব্যবহারকারীর ভিত্তি রয়েছে, বিশেষ করে পরবর্তী প্রজন্মের অনুক্রম বিশ্লেষণের ক্ষেত্রে। এই ক্ষেত্রে এর জনপ্রিয়তা আংশিকভাবে এর শক্তিশালী, দোষ-সহনশীল HDFS এর কারণে।

HBase একটি বিতরণ করা, ত্রুটি-সহনশীল, স্কেলযোগ্য ডাটাবেস যোগ করে যা HDFS ফাইল সিস্টেমের উপরে তৈরি করা হয়েছে, ডেটাতে র্যান্ডম রিয়েল-টাইম রিড এবং রাইট অ্যাক্সেস সহ। আপনি মাহাউটকে স্কেলেবল মেশিন লার্নিং লাইব্রেরি তৈরির জন্য বা ব্যাচের জন্য পিগ দেখতে চাইতে পারেন। তথ্য প্রক্রিয়াকরণ।

এই সিরিজের পার্ট 2-এ, আমরা Hadoop ইকোসিস্টেমের আরও উপাদান কভার করব।

কোনো মন্তব্য করতে বা প্রশ্ন জিজ্ঞাসা করতে প্রতিক্রিয়া ট্যাবটি ব্যবহার করুন৷


  1. 26টি বিগ ডেটা অ্যানালাইটিক টেকনিকের একটি অন্তর্দৃষ্টি:পার্ট 2

  2. 26টি বিগ ডেটা অ্যানালাইটিক টেকনিকের একটি অন্তর্দৃষ্টি:পার্ট 1

  3. বিগ ডেটার জন্য সেরা প্রোগ্রামিং ভাষা – পার্ট 1

  4. বিগ ডেটার জন্য সেরা প্রোগ্রামিং ভাষা – পার্ট 2