কম্পিউটার

Amazon Redshift:ক্যোয়ারী কর্মক্ষমতা অপ্টিমাইজ করার জন্য সেরা অনুশীলন

মূলত Onica.com/blog-এ 17 জুন, 2020 এ প্রকাশিত

শিল্পের আধিক্য জুড়ে সংস্থাগুলি ক্রিয়াকলাপ এবং সাফল্যের জন্য গুরুত্বপূর্ণ অন্যান্য ফাংশনের জন্য ডেটা বিশ্লেষণ ব্যবহার করতে চায়। যাইহোক, asdata ভলিউম বৃদ্ধি পায়, ব্যবস্থাপনা এবং মূল্য-অর্থায়ন ক্রমশ জটিল হয়ে উঠতে পারে।

Amazon Redshift

Amazon® Redshift® হল Amazon Web Services® (AWS) থেকে একটি শক্তিশালী ডেটা গুদাম পরিষেবা যা ডেটা ব্যবস্থাপনা এবং বিশ্লেষণকে সহজ করে। আসুন অ্যামাজন রেডশিফ্ট দেখে নেওয়া যাক এবং ডেটা কোয়েরি করার পারফরম্যান্স অপ্টিমাইজ করতে আপনি প্রয়োগ করতে পারেন এমন কিছু সেরা অনুশীলন।

ডেটা লেক বনাম ডেটা গুদাম

অ্যামাজন রেডশিফটে খনন করার আগে, ডেটা লেক এবং গুদামগুলির মধ্যে পার্থক্যগুলি জানা গুরুত্বপূর্ণ। একটি ডেটা লেক, যেমন Amazon S3, একটি কেন্দ্রীভূত ডেটা ভাণ্ডার যা ডেটা পরিবর্তন না করেই যে কোনো স্কেলে এবং অনেক উত্স থেকে কাঠামোগত এবং অসংগঠিত ডেটা সঞ্চয় করে৷ অন্যদিকে, ডেটা গুদামগুলি চলমান বিশ্লেষণগুলি সম্পাদন করার জন্য অপ্টিমাইজ করা একটি পুনর্মিলিত অবস্থায় ডেটা সংরক্ষণ করে৷ শুধুমাত্র ডেটা লেক থেকে বিশ্লেষণের জন্য প্রয়োজনীয় ডেটা লোড করুন।

অ্যামাজন রেডশিফ্ট ডেটা অ্যানালিটিক্সের জন্য আরও এক স্তরে স্টোরেজ নিয়ে যায়, ডেটা লেক এবং গুদামগুলির গুণাবলীকে একটি "লেক হাউস" পদ্ধতিতে একত্রিত করে৷ এটি খরচ-কার্যকর থাকাকালীন, ডেটার অপ্রয়োজনীয়তা কমিয়ে, এবং রক্ষণাবেক্ষণের ওভারহেড ও অপারেশনাল খরচ কমিয়ে রেখে বড় এক্সাবাইট-স্কেলডেটা লেকের অনুসন্ধানের অনুমতি দেয়৷

Amazon Redshift আর্কিটেকচার

বড় ডেটা সেটগুলিতে জটিল প্রশ্নগুলি দ্রুত প্রক্রিয়া করার জন্য, অ্যামাজন রেডশিফ্ট আর্কিটেকচার ব্যাপকভাবে সমান্তরাল প্রক্রিয়াকরণ (MPP) সমর্থন করে যা সমসাময়িক প্রক্রিয়াকরণের জন্য অনেক কম্পিউট নোড জুড়ে কাজ বিতরণ করে৷

এই নোডগুলি ক্লাস্টারে বিভক্ত, এবং প্রতিটি ক্লাস্টারে তিন ধরনের নোড থাকে:

  • লিডার নোড৷ :এগুলি সংযোগগুলি পরিচালনা করে, এসকিউএল এন্ডপয়েন্ট হিসাবে কাজ করে এবং সমান্তরাল এসকিউএল প্রক্রিয়াকরণের সমন্বয় করে।

  • কম্পিউট নোড :স্লাইস দিয়ে গঠিত , একটি কলামার বিন্যাসে এবং 1 এমবি অপরিবর্তনীয় ব্লকে ডেটা সংরক্ষণের সমান্তরালে এই প্রশ্নগুলি সম্পাদন করে। একটি অ্যামাজন রেডশিফ্ট ক্লাস্টারে 1 থেকে 128টি কম্পিউট নোড থাকতে পারে, যা টেবিলের ডেটা ধারণ করে এবং একটি স্থানীয় প্রক্রিয়াকরণ অঞ্চল হিসাবে কাজ করে।

  • Amazon Redshift স্পেকট্রাম নোডস :এইগুলি একটি Amazon S3 ডেটা লেকের বিরুদ্ধে প্রশ্নগুলি চালায়৷

Amazon Redshift:ক্যোয়ারী কর্মক্ষমতা অপ্টিমাইজ করার জন্য সেরা অনুশীলন

ক্যোয়ারী কর্মক্ষমতা অপ্টিমাইজ করা

ক্লাস্টারে ডেটার ফিজিক্যাল লেআউটকে আপনার ক্যোয়ারী প্যাটার্নের সাথে সামঞ্জস্যপূর্ণ করে, আপনি সর্বোত্তম ক্যোয়ারী কর্মক্ষমতা বের করতে পারেন। যদি অ্যামাজন রেডশিফ্ট সর্বোত্তমভাবে কাজ না করে, তাহলে কাজের চাপ ব্যবস্থাপনা পুনরায় কনফিগার করার কথা বিবেচনা করুন।

ওয়ার্কলোড ম্যানেজমেন্ট পুনরায় কনফিগার করুন (WLM)

প্রায়শই এটির ডিফল্ট সেটিংয়ে রেখে দেওয়া হয়, WLM টিউন করলে কর্মক্ষমতা উন্নত হতে পারে৷ আপনি এই কাজটি স্বয়ংক্রিয়ভাবে করতে পারেন বা নিজে নিজে সম্পাদন করতে পারেন৷ যখন স্বয়ংক্রিয় হয়, তখন অ্যামাজন রেডশিফ্ট ক্লাস্টার-রিসোর্স ব্যবহারের উপর ভিত্তি করে মেমরির ব্যবহার এবং সঙ্গতি পরিচালনা করে। এটি আপনাকে আটটি অগ্রাধিকার-নির্ধারিত সারি সেট আপ করতে দেয়। ম্যানুয়ালি হয়ে গেলে, আপনি সমসাময়িক প্রশ্নের সংখ্যা, মেমরি বরাদ্দ এবং লক্ষ্যগুলি সামঞ্জস্য করতে পারেন৷

এছাড়াও আপনি নিম্নলিখিত WLM কনফিগারেশন প্যারামিটারের মাধ্যমে অনুসন্ধান কর্মক্ষমতা অপ্টিমাইজ করতে পারেন:

  • কোয়েরি পর্যবেক্ষণ নিয়মগুলি আপনাকে ব্যয়বহুল বা পলাতক প্রশ্নগুলি পরিচালনা করতে সহায়তা করে৷

  • সংক্ষিপ্ত প্রশ্ন এক্সিলারেশন আপনাকে মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে ক্যোয়ারিং এক্সিকিউশন টাইমের পূর্বাভাস দেওয়ার মাধ্যমে স্বল্প-চালিত প্রশ্নগুলিকে বেশি দীর্ঘ-চলমান প্রশ্নগুলিকে অগ্রাধিকার দিতে সহায়তা করে৷

  • সঙ্গতি স্কেলিং সমসাময়িক পঠিত প্রশ্নের গতি বাড়াতে সেকেন্ডে একাধিক ক্ষণস্থায়ী ক্লাস্টার যোগ করতে সাহায্য করে।

WLM সেরা অনুশীলন

কিছু WLM টিউনিং সেরা অনুশীলন অন্তর্ভুক্ত:

  • বিভিন্ন ধরনের কাজের চাপের জন্য বিভিন্ন WLM প্রশ্ন তৈরি করা।
  • থ্রুপুট সর্বাধিক করার জন্য প্রধান ক্লাস্টারের জন্য সর্বাধিক মোট একযোগে 15 বা তার কম সীমাবদ্ধ করা৷
  • সঙ্গতি স্কেলিং সক্ষম করা।
  • একটি সারিতে সম্পদের সংখ্যা কমিয়ে আনা।

ডেটা বিতরণ পরিশোধন

নিম্নলিখিত বিতরণ শৈলীগুলির উপর ভিত্তি করে একটি টেবিলের সারিগুলি স্বয়ংক্রিয়ভাবে নোড স্লাইস জুড়ে AmazonRedshift দ্বারা বিতরণ করা হয়:

  • AUTO :ALL দিয়ে শুরু হয় এবং টেবিল বাড়ার সাথে সাথে EVEN-এ স্যুইচ করে।
  • ALL :প্রতিটি কম্পিউট নোডের প্রথম স্লাইসে রাখা ছোট, ঘন ঘন যোগ করা এবং কদাচিৎ পরিবর্তিত টেবিল নিয়ে গঠিত।
  • EVEN :বড়, স্বতন্ত্র ফ্যাক্ট টেবিল নিয়ে গঠিত যা প্রায়শই রাউন্ড-রবিন ডিস্ট্রিবিউশনে যোগ করা হয় না বা একত্রিত হয় না।
  • KEY :ঘন ঘন যুক্ত হওয়া ফ্যাক্ট টেবিল বা বড় ডাইমেনশন টেবিল নিয়ে গঠিত। এই শৈলীতে, একটি কলামের মান হ্যাশ করা হয়, এবং একই হ্যাশ মান একই স্লাইসে রাখা হয়।

সঠিক ডিস্ট্রিবিউশন প্যাটার্ন ব্যবহার করে JOIN-এর কর্মক্ষমতা সর্বাধিক করা যায় , GROUP BY , এবং INSERT INTO SELECT অপারেশন।

ডেটা সাজানোর পরিমার্জন

বাছাই কীগুলি একটি ডিস্কে ডেটার প্রকৃত ক্রম নির্ধারণ করে৷ WHERE-এ ব্যবহৃত টেবিল কলামগুলি ক্লজ পূর্বাভাসগুলি সাজানোর কীগুলির জন্য একটি ভাল পছন্দ এবং সাধারণত তারিখ বা সময়-সম্পর্কিত কলামগুলি ব্যবহার করে৷ প্রতিটি ব্লকের ডেটার মূল্যের চূড়ান্ত সংজ্ঞায়িত করতে, মেমরিতে সংরক্ষিত এবং স্বয়ংক্রিয়ভাবে তৈরি হওয়া জোন মানচিত্রগুলি ব্যবহার করুন৷ কার্যকরীভাবে বাছাই কী এবং জোন মানচিত্র একসাথে ব্যবহার করে আপনাকে সাহায্য করতে পারে৷ স্ক্যানগুলিকে ন্যূনতম প্রয়োজনীয় সংখ্যক ব্লকে সীমাবদ্ধ করুন।

নিম্নলিখিত চিত্রটি ব্যাখ্যা করে যে কীভাবে টেবিল বাছাই ফোকাস করে সময়-ভিত্তিক প্রশ্নের জন্য লক্ষ্য স্ক্যান করে, যার ফলে ক্যোয়ারী কর্মক্ষমতা উন্নত হয়।

Amazon Redshift:ক্যোয়ারী কর্মক্ষমতা অপ্টিমাইজ করার জন্য সেরা অনুশীলন

অপ্টিমাল কোয়েরি পারফরম্যান্সের সর্বোত্তম অনুশীলন

পূর্বে উল্লিখিত Amazon Redshift পরিবর্তনগুলি ব্যবহার করে ক্যোয়ারী কর্মক্ষমতা উন্নত করতে পারে এবং খরচ এবং সম্পদের দক্ষতা উন্নত করতে পারে। আরও কর্মক্ষমতা উন্নতির জন্য আপনি প্রয়োগ করতে পারেন এমন আরও কিছু সেরা অনুশীলন এখানে রয়েছে:

  • SORT ব্যবহার করুন কলামের কী যা প্রায়শই WHERE-এ ব্যবহৃত হয় ক্লজ ফিল্টার।
  • DISTKEY ব্যবহার করুন কলামগুলিতে যা প্রায়শই JOIN এ ব্যবহৃত হয় পূর্বাভাস।
  • প্রথম বাছাই-কী কলাম ছাড়া সব কলাম কম্প্রেস করুন।
  • ক্যোয়ারী ফিল্টারের উপর ভিত্তি করে ডেটা লেকে পার্টিশন ডেটা যেমন অ্যাক্সেস প্যাটার্ন .

আরও কিছু সর্বোত্তম অনুশীলন অন্বেষণ করতে, অ্যামাজন রেডশিফ্ট পরিবর্তনগুলিতে গভীরভাবে ডুব দিন এবং একটি গভীর অনুসন্ধানের একটি উদাহরণ দেখুন, AWS পার্টনার নেটওয়ার্ক (APN) ব্লগ পড়ুন৷

আপনি যদি ডেটা যাত্রা শুরু করেন এবং আপনার ডেটা প্ল্যাটফর্ম দ্রুত, নির্ভরযোগ্যভাবে এবং সাশ্রয়ীভাবে বিকাশের জন্য AWS পরিষেবাগুলি লাভ করতে চান তবে আজই আমাদের ডেটা ইঞ্জিনিয়ারিং এবং অ্যানালিটিক্সটিমের সাথে যোগাযোগ করুন৷

Onica পরিষেবা সম্পর্কে আরও জানুন৷

কোনো মন্তব্য করতে বা প্রশ্ন জিজ্ঞাসা করতে প্রতিক্রিয়া ট্যাব ব্যবহার করুন। এছাড়াও আপনি সেলস চ্যাট এ ক্লিক করতে পারেন এখন চ্যাট করতে এবং কথোপকথন শুরু করতে।


  1. বিগ ডেটার জন্য সেরা প্রোগ্রামিং ভাষা – পার্ট 1

  2. বিগ ডেটার জন্য সেরা প্রোগ্রামিং ভাষা – পার্ট 2

  3. উইন্ডোজ 10, 8 এবং 7 এর জন্য 12 সেরা ডেটা শ্রেডার সফ্টওয়্যার

  4. উইন্ডোজ 10, 8, 7 পিসির জন্য সেরা USB ডেটা পুনরুদ্ধার সফ্টওয়্যার