আমরা যখন শেষবার বিগ ডেটা নিয়ে কথা বলেছিলাম, তখন আমরা বিভিন্ন বিগ ডেটা অ্যানালিটিক্স টেকনিকের কথা বলেছিলাম৷ এর আগে আমরা বিগ ডেটার বিভিন্ন দিক নিয়ে কথা বলেছি। আমার একটি ব্লগে, আমি "বিগ ডেটা রেফারেন্স আর্কিটেকচার লেয়ারের কার্যকারিতা" বর্ণনা করেছি . যেমনটি আগে বলা হয়েছে, একই লাইন ধরে চালিয়ে যেতে, এই ব্লগে আমরা "শীর্ষ 10টি ওপেন সোর্স ডেটা এক্সট্রাকশন টুল" সম্পর্কে আলোচনা করব .
বিগ ডেটার ডেটা এক্সট্র্যাকশন টুলগুলি সমস্ত বিভিন্ন উত্স থেকে ডেটা সংগ্রহ করতে সাহায্য করে এবং এটিকে একটি কাঠামোগত আকারে রূপান্তরিত করে৷ এই টুলগুলির জন্য সবচেয়ে বেশি ব্যবহৃত শব্দটি হল “ETL – এক্সট্রাক্ট ট্রান্সফর্ম এবং লোড” . এই টুলগুলির কার্যকারিতাগুলিকে নীচে বর্ণিত 3টি ধাপে ভাগ করা যেতে পারে:
- ৷
- সমজাতীয় বা ভিন্নধর্মী তথ্য উৎস থেকে ডেটা বের করুন
- ক্যোয়ারী এবং বিশ্লেষণের উদ্দেশ্যে সঠিক বিন্যাসে বা কাঠামোতে সংরক্ষণ করার জন্য ডেটা রূপান্তর করুন।
- এটি চূড়ান্ত লক্ষ্যে লোড করুন (ডাটাবেস, আরও নির্দিষ্টভাবে, অপারেশনাল ডেটা স্টোর, ডেটা মার্ট, বা ডেটা গুদাম)।
সাধারণত ETL টুলগুলিতে, তিনটি ধাপই সমান্তরালভাবে কার্যকর হয় যেহেতু ডেটা নিষ্কাশনে সময় লাগে, তাই ডেটা তোলার সময় আরেকটি রূপান্তর প্রক্রিয়া সঞ্চালিত হয়, ইতিমধ্যে প্রাপ্ত ডেটা প্রক্রিয়াকরণ এবং লোড করার জন্য ডেটা প্রস্তুত করে এবং লক্ষ্যে লোড করার জন্য কিছু ডেটা প্রস্তুত হওয়ার সাথে সাথে, পূর্ববর্তী পর্যায়গুলি সম্পূর্ণ হওয়ার জন্য অপেক্ষা না করেই ডেটা লোডিং শুরু হয়৷
এখানে, আমি সেরা 10টি ওপেন সোর্স ডেটা এক্সট্রাকশন বা ETL টুল তালিকাভুক্ত করছি:
1. ট্যালেন্ড ওপেন স্টুডিও:
৷
টেলেন্ড ওপেনস্টুডিও হল বাজারে সবচেয়ে শক্তিশালী ডেটা ইন্টিগ্রেশন ইটিএল টুলগুলির মধ্যে একটি৷ ট্যালেন্ড ওপেন স্টুডিও হ'ল ডেটা ম্যানেজমেন্ট এবং অ্যাপ্লিকেশন ইন্টিগ্রেশন প্রকল্পগুলি বিকাশ, পরীক্ষা, স্থাপন এবং পরিচালনার জন্য ওপেন সোর্স পণ্যগুলির একটি বহুমুখী সেট৷
ETL প্রকল্পগুলির জন্য, ডেটা ইন্টিগ্রেশনের জন্য ট্যালেন্ড ওপেন স্টুডিও ওপেন সোর্স এবং বাণিজ্যিক সংস্করণ উভয়ই ডেটা ইন্টিগ্রেশনের জন্য একাধিক সমাধান প্রদান করে৷ টেলেন্ড একটি স্বজ্ঞাত Eclipse-ভিত্তিক ইন্টারফেসের সাথে একটি গ্রাফিক্যাল সমন্বিত উন্নয়ন পরিবেশ সহ একটি সমৃদ্ধ বৈশিষ্ট্য সেট অফার করে। ডাটাবেস, মেইনফ্রেম, ফাইল সিস্টেম, ওয়েব-পরিষেবা, প্যাকেজড এন্টারপ্রাইজ অ্যাপ্লিকেশন, ডেটা ওয়ারহাউস, OLAP অ্যাপ্লিকেশন, সফ্টওয়্যার-এ-এ-এর মধ্যে সেতু করার জন্য ড্র্যাগ-এন্ড-ড্রপ ডিজাইন ফ্লো এবং 400 টিরও বেশি প্রাক-কনফিগার করা অ্যাপ্লিকেশন সংযোগকারীর সাথে বিস্তৃত সংযোগের সাথে -পরিষেবা, ক্লাউড-ভিত্তিক অ্যাপ্লিকেশন, এবং আরও অনেক কিছু।
2. স্ক্রিপ্টেলা:
Scriptella হল একটি ওপেন সোর্স ETL টুল যা Apache দ্বারা চালু করা হয়েছে, যা এক্সট্র্যাক্টিং, ট্রান্সফর্মিং এবং লোডিং প্রসেসের কার্যকারিতার পাশাপাশি জাভা স্ক্রিপ্টিং নির্বাহে ব্যবহৃত হয়। এটি ব্যবহার করার জন্য একটি খুব সহজ এবং সহজ টুল এবং এটি ব্যবহার করার সহজতার কারণে এটি মূলত জনপ্রিয়। বৈশিষ্ট্যগুলির মধ্যে SQL, JavaScript, JEXL, Velocity-এ লেখা স্ক্রিপ্টগুলি সম্পাদন করা অন্তর্ভুক্ত। ডাটাবেস স্থানান্তর, LDAP, JDBC, XML এবং অন্যান্য ডেটা উত্সগুলির সাথে আন্তঃঅপারেবিলিটি। ক্রস ডেটাবেস ETL অপারেশন, CSV থেকে/তে আমদানি/রপ্তানি, টেক্সট এবং XML এবং অন্যান্য ফরম্যাট।
3. KETL:
KETL হল ডেটা গুদামজাতকরণের জন্য সেরা ওপেন সোর্স টুলগুলির মধ্যে একটি৷ এটি XML এবং অন্যান্য ভাষার সাথে জাভা ওরিয়েন্টেড স্ট্রাকচার দিয়ে তৈরি। ইঞ্জিনটি একটি খোলা, বহু-থ্রেডেড, XML-ভিত্তিক আর্কিটেকচারের উপর নির্মিত। KETL প্রধান বৈশিষ্ট্যগুলির মধ্যে রয়েছে নিরাপত্তা এবং ডেটা ম্যানেজমেন্ট টুলগুলির একীকরণের জন্য সমর্থন, একাধিক সার্ভার এবং CPU-তে প্রমাণিত স্কেলেবিলিটি এবং ডেটার যে কোনও ভলিউম এবং তৃতীয় পক্ষের সময়সূচী, নির্ভরতা এবং বিজ্ঞপ্তি সরঞ্জামগুলির জন্য অতিরিক্ত প্রয়োজন নেই৷
4. পেন্টাহো ডেটা ইন্টিগ্রেটর – কেটল:
৷
পেন্টাহোর মতে, এটি একটি BI প্রদানকারী যেটি ডেটা ইন্টিগ্রেশনের ক্ষমতা হিসাবে ETL টুল অফার করে৷ এই ETL ক্ষমতাগুলি কেটল প্রকল্পের উপর ভিত্তি করে। এটি জাভা অ্যাপ্লিকেশন এবং লাইব্রেরি। কেটল হল XML ফর্ম্যাটে লেখা পদ্ধতির একটি দোভাষী। কেটল ডেটা ম্যানিপুলেশন প্রক্রিয়াকে সূক্ষ্ম সুর করার জন্য একটি জাভা স্ক্রিপ্ট ইঞ্জিন সরবরাহ করে। এমনকি জটিল ETL পদ্ধতিগুলি তৈরি করার জন্য প্রয়োজনীয় সমস্ত কিছু সহ কেটল একটি ভাল সরঞ্জাম। কেটল হল XML ফর্ম্যাটে লেখা ETL পদ্ধতির একটি দোভাষী৷
৷কেটল (PDI) হল Pentaho Business Intelligence Suite-এর ডিফল্ট টুল। প্রক্রিয়াগুলি পেন্টাহো প্ল্যাটফর্মের বাইরেও চালানো যেতে পারে, যদি সমস্ত কেটল লাইব্রেরি এবং জাভা ইন্টারপ্রেটার ইনস্টল করা থাকে।
5. Jaspersoft ETL:
৷
Jaspersoft ETL অনেক মালিকানাধীন এবং ওপেন সোর্স ETL সিস্টেম স্থাপন করা সহজ এবং আউট-পারফর্ম করে৷ এটি রিপোর্টিং এবং বিশ্লেষণের জন্য একটি একত্রিত ডেটা গুদাম বা ডেটা মার্ট তৈরি করতে আপনার লেনদেন সিস্টেম থেকে ডেটা বের করতে ব্যবহৃত হয়। বৈশিষ্ট্যগুলির মধ্যে রয়েছে তথ্য কর্মপ্রবাহের একটি অ-প্রযুক্তিগত দৃশ্য অ্যাক্সেস করার জন্য ব্যবসায়িক মডেলার, জব ডিজাইনার, একটি গ্রাফিকাল এডিটিং টুল, ট্রান্সফরমেশন ম্যাপার এবং অন্যান্য রূপান্তর উপাদানগুলির সাথে জটিল ম্যাপিং এবং রূপান্তর সংজ্ঞায়িত করার জন্য ETL প্রক্রিয়া প্রদর্শন এবং সম্পাদনা করা৷
এটি এমনকি রিয়েল টাইম ডিবাগিংয়ের সাথে শুরু থেকে শেষ পর্যন্ত ETL পরিসংখ্যান ট্র্যাক করার ক্ষমতা রাখে, ফ্ল্যাট ফাইল, XML ফাইল, ডেটাবেস, ওয়েব সহ একাধিক উত্স থেকে একযোগে আউটপুট এবং ইনপুট করার অনুমতি দেয় পরিষেবা, শত শত উপলব্ধ সংযোগকারী সহ POP এবং FTP সার্ভার এবং কাজের ইভেন্ট, নির্বাহের সময় এবং ডেটা ভলিউম নিরীক্ষণ করতে কার্যকলাপ পর্যবেক্ষণ কনসোলের ব্যবহার।
6. জিওকেটল:
GeoKettle হল জেনেরিক ETL টুল কেটলের (পেন্টাহো ডেটা ইন্টিগ্রেশন) একটি স্থানিক-সক্ষম সংস্করণ। GeoKettle হল একটি শক্তিশালী মেটাডেটা-চালিত স্থানিক ETL টুল যা ভূ-স্থানিক ডেটা গুদামগুলি তৈরি এবং আপডেট করার জন্য বিভিন্ন স্থানিক ডেটা উত্সগুলির একীকরণের জন্য নিবেদিত৷
এটি ডেটা উত্স থেকে ডেটা নিষ্কাশন, ত্রুটিগুলি সংশোধন করতে, কিছু ডেটা পরিষ্কার করতে, ডেটা কাঠামো পরিবর্তন করতে, সংজ্ঞায়িত মানগুলির সাথে সঙ্গতিপূর্ণ করতে ডেটার রূপান্তর সক্ষম করে, এবং OLTP বা OLAP/SOLAP মোডে, GIS ফাইল বা জিওস্পেশিয়াল ওয়েব সার্ভিসে একটি টার্গেট ডেটাবেস ম্যানেজমেন্ট সিস্টেম (DBMS) এ রূপান্তরিত ডেটা লোড করা।
7. ক্লোভার ETL:
এই প্রকল্পটি চেক প্রজাতন্ত্র ভিত্তিক কোম্পানি OpenSys দ্বারা পরিচালিত। এটি জাভা-ভিত্তিক, দ্বৈত-লাইসেন্সযুক্ত ওপেন সোর্স যেটির বাণিজ্যিকভাবে লাইসেন্সকৃত সংস্করণে ওয়ারেন্টি এবং সহায়তা প্রদান করে। এর অফারে একটি ছোট পদচিহ্ন রয়েছে যা সিস্টেম ইন্টিগ্রেটর এবং ISVs দ্বারা এম্বেড করা সহজ করে তোলে। এটির লক্ষ্য ম্যাপিং এবং রূপান্তর সহ ফাংশনগুলির একটি মৌলিক লাইব্রেরি তৈরি করা। এর এন্টারপ্রাইজ সার্ভার সংস্করণটি একটি বাণিজ্যিক অফার।
8. এইচপিসিসি সিস্টেম:
HPCC সিস্টেম হল থর নামক ডেটা রিফাইনারি ইঞ্জিন সহ বিগ ডেটা বিশ্লেষণের জন্য একটি ওপেন-সোর্স প্ল্যাটফর্ম৷ Thor পরিষ্কার, লিঙ্ক, রূপান্তর এবং বিগ ডেটা বিশ্লেষণ. থর ETL (এক্সট্রাকশন, ট্রান্সফর্মেশন এবং লোডিং) ফাংশনগুলিকে সমর্থন করে যেমন অসংগঠিত/স্ট্রাকচার্ড ডেটা আউট করা, ডেটা প্রোফাইলিং, ডেটা হাইজিন এবং ডেটা লিঙ্কিং আউট দ্য বক্স। থর প্রক্রিয়াকৃত ডেটা রক্সি ব্যবহার করে রিয়েল টাইম ফ্যাশনে একযোগে বিপুল সংখ্যক ব্যবহারকারীর দ্বারা অ্যাক্সেস করা যায়, যা একটি ডেটা ডেলিভারি ইঞ্জিন। Roxie অত্যন্ত সমসাময়িক এবং কম লেটেন্সি রিয়েল টাইম কোয়েরি ক্ষমতা প্রদান করে।
9. জেডক্স:
৷
Jedox হল ওপেন সোর্স BI সমাধান টুল। এই বিশেষ টুলটি হল পারফরম্যান্স হোল্ডিং স্ট্র্যাটেজি প্ল্যান, তদন্ত, কভারেজ এবং ETL ধারণার সাথে জড়িত প্রক্রিয়াগুলি পরিচালনা করার জন্য। ওপেন কোর একটি ইন-মেমরি OLAP সার্ভার, ETL সার্ভার এবং OLAP ক্লায়েন্ট লাইব্রেরি নিয়ে গঠিত। একটি উত্স এবং লক্ষ্য ব্যবস্থা হিসাবে জেডক্স ওএলএপি সার্ভারকে শক্তিশালীভাবে সমর্থন করে, OLAP তদন্তে জটিলতাগুলি কাটিয়ে উঠতে সক্ষমতার সাথে টুলটি প্রস্তুত করা হয়েছে। এই বিশেষ ETL টুল ব্যবহার করে যেকোনো প্রচলিত মডেলকে একটি OLAP মডেলে রূপান্তরিত করা যেতে পারে।
কিউব এবং মাত্রার সাথে কাজ করা সহজ হতে পারে না৷ নমনীয়ভাবে ঘন ঘন-প্রয়োজনীয় সময়ের শ্রেণীবিন্যাস তৈরি করে এবং দক্ষতার সাথে সোর্স সিস্টেমের রিলেশনাল মডেলকে একটি OLAP মডেলে রূপান্তর করে - JEDOX ETL এর সাথে।
10. Apatar ETL:
৷
Apatar ETL একটি ওপেন সোর্স প্যাকেজে অতুলনীয় ক্ষমতার একটি সেট নিয়ে আসে৷ বৈশিষ্ট্যগুলির মধ্যে রয়েছে Oracle, MS SQL, MySQL, Sybase DB2, MS Access, PostgreSQL, XML, InstantDB, Paradox, BorlandJDataStore, Csv, MS Excel, Qed, HSQL, SalesForce.Com ইত্যাদির সাথে সংযোগ। সবগুলি পরিচালনা করার জন্য একটি একক ইন্টারফেস রয়েছে। প্রজেক্ট, নমনীয় স্থাপনার বিকল্প, দ্বি-নির্দেশিক একীকরণ, প্ল্যাটফর্ম-স্বাধীন, উইন্ডোজ, লিনাক্স, ম্যাক থেকে চলে; 100% জাভা-ভিত্তিক, কোন কোডিং নয়, ভিজ্যুয়াল জব ডিজাইনার এবং ম্যাপিং নন-ডেভেলপারদের ডিজাইন এবং রূপান্তর সম্পাদন করতে সক্ষম করে।
ওপেন সোর্স টুলগুলির সর্বদা কিছু সীমাবদ্ধতা থাকে যা যাই হোক না কেন, উন্নত বৈশিষ্ট্য, স্টোরেজ সুবিধা, উন্নত বিশ্লেষণমূলক বৈশিষ্ট্য এবং আরও অনেক কিছুর ক্ষেত্রে সীমাবদ্ধতা রয়েছে৷ সুতরাং, লাইসেন্সকৃত সরঞ্জামগুলি ব্যবহার করার পরামর্শ দেওয়া হয়। আমার পরবর্তী ব্লগে লাইসেন্সকৃত ডেটা এক্সট্রাকশন টুলস সম্পর্কে আলোচনা করা হবে।