paint-brush
এলএলএম নির্মাণ বা ফাইন-টিউনিংয়ের চ্যালেঞ্জ, খরচ এবং বিবেচনাদ্বারা@edouarddarchimbaud
11,442 পড়া
11,442 পড়া

এলএলএম নির্মাণ বা ফাইন-টিউনিংয়ের চ্যালেঞ্জ, খরচ এবং বিবেচনা

দ্বারা Edouard d'Archimbaud18m2023/09/01
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

আপনার কোম্পানির জন্য একটি এলএলএম তৈরি বা ফাইন-টিউনিং করার রাস্তা একটি জটিল হতে পারে। আপনার দল শুরু করার জন্য একটি গাইড প্রয়োজন.

People Mentioned

Mention Thumbnail
featured image - এলএলএম নির্মাণ বা ফাইন-টিউনিংয়ের চ্যালেঞ্জ, খরচ এবং বিবেচনা
Edouard d'Archimbaud HackerNoon profile picture
0-item

এটা আর খবর নয় যে এলএলএমগুলি পরিবর্তিত হয়েছে এবং শিল্প জুড়ে এআই এবং ব্যবসার জন্য গেম পরিবর্তন করতে থাকবে। IBM-এর একটি সমীক্ষায় দেখা গেছে যে সিইওরা উত্পাদনশীলতা উন্নত করতে এবং প্রতিযোগিতামূলক প্রান্ত অর্জনের জন্য ক্রমবর্ধমানভাবে জেনারেটিভ এআই গ্রহণ করছেন । সমীক্ষা, যা সারা বিশ্ব থেকে 3,000 CEO-এর উপর জরিপ করেছে, দেখা গেছে যে 75% CEO বিশ্বাস করেন যে সবচেয়ে উন্নত জেনারেটিভ এআই সহ প্রতিষ্ঠানের একটি প্রতিযোগিতামূলক সুবিধা থাকবে।


আপনি যদি LLM ব্যবহার করার সর্বোত্তম উপায় সম্পর্কে ভাবছেন এবং সেগুলি তৈরি বা সূক্ষ্ম-টিউন করবেন কিনা, আমরা এই নির্দেশিকাটি শেয়ার করতে চাই যে এটি কার্যকরভাবে এবং দক্ষতার সাথে করতে আপনাকে কী জানতে হবে।


প্রথমত, আমরা LLMগুলি কীভাবে প্রয়োগ করা হচ্ছে এবং কোন শিল্পগুলিতে তারা সবচেয়ে বেশি প্রভাব ফেলতে পারে তা দেখব যাতে আপনি একটি LLM দিয়ে কী অর্জন করতে পারেন সে সম্পর্কে আপনার আরও ভাল ধারণা রয়েছে। তারপর, আমরা কেন একটি এলএলএম তৈরি বা সূক্ষ্ম টিউন করি সে সম্পর্কে কথা বলব। এবং পরিশেষে, আমরা সমালোচনামূলক বিবেচনা, কৌশল এবং সর্বোত্তম অনুশীলনগুলি ভাগ করব, যাতে আপনি সিদ্ধান্ত নেওয়ার পরে আপনার টিম একটি তীক্ষ্ণ দৃষ্টিভঙ্গি পেতে পারে।


এখন, আসুন আরও গভীরে প্রবেশ করি যে কীভাবে এলএলএমগুলি শিল্প এবং ব্যবসায় পরিবর্তনের জন্য অনুমান করা হয়:

এলএলএমগুলি কীভাবে শিল্পগুলিকে পরিবর্তন করছে

তথ্য শিল্প

ওপেনএআই, ওপেন রিসার্চ, এবং পেনসিলভানিয়া বিশ্ববিদ্যালয়ের গবেষকদের একটি সাম্প্রতিক কার্যপত্রে দেখা গেছে যে এলএলএমগুলি সাধারণত একাধিক মার্কিন বাজারকে প্রভাবিত করতে পারে এবং তথ্য শিল্প সম্ভবত নিম্নলিখিত কারণে সবচেয়ে বেশি প্রভাবিত হবে:

  • তথ্য শিল্প LLM-এর মূল ক্ষমতার উপর অনেক বেশি নির্ভর করে, যেমন লেখা, ডেটা বিশ্লেষণ, তথ্য পুনরুদ্ধার এবং বিষয়বস্তু তৈরি। এগুলি জেনারেটিভ এআই মডেলের শক্তির সাথে ঘনিষ্ঠভাবে সারিবদ্ধ।
  • নিবন্ধ, প্রতিবেদন এবং অন্যান্য বিষয়বস্তুর খসড়া তৈরির মতো কাজগুলি স্বায়ত্তশাসিতভাবে ড্রাফ্ট এবং সংশোধন তৈরি করে এলএলএম থেকে উল্লেখযোগ্য উত্পাদনশীলতা লাভ দেখতে পারে।
  • অন্যান্য দৈনন্দিন তথ্য শিল্পের কাজ যেমন অনুসন্ধান, ডেটা প্রসেসিং, কন্টেন্ট ট্যাগিং/মেটাডেটা জেনারেশন এবং গ্রাহক সহায়তাও এলএলএম দ্বারা উল্লেখযোগ্যভাবে সাহায্য করা যেতে পারে।
  • তথ্য ব্যবসায় প্রায়শই প্রচুর পরিমাণে পাঠ্য ডেটা থাকে যা তাদের নির্দিষ্ট ব্যবহারের ক্ষেত্রে অত্যন্ত কার্যকরী হতে LLM-কে প্রশিক্ষণ এবং সূক্ষ্ম-টিউন করতে ব্যবহার করা যেতে পারে।
  • এই শিল্পে কাজের কম শারীরিকতা এটিকে সফ্টওয়্যারের মাধ্যমে অটোমেশনের জন্য খুব উপযুক্ত করে তোলে।

ব্যাঙ্কিং খাত

এদিকে, ম্যাককিন্সির একটি গবেষণায় ব্যাঙ্কিংকে এমন একটি শিল্প হিসাবে উল্লেখ করা হয়েছে যা এলএলএম-এর জন্য সবচেয়ে উল্লেখযোগ্য প্রভাব দেখতে পারে। যদি ব্যবহারের ক্ষেত্রে সম্পূর্ণরূপে প্রয়োগ করা হয়, তারা প্রযুক্তিটি $200 বিলিয়ন থেকে $340 বিলিয়নের অতিরিক্ত বার্ষিক মূল্য প্রদানের প্রত্যাশা করে।

  • এলএলএম গ্রাহকদের জিজ্ঞাসার স্বয়ংক্রিয় প্রতিক্রিয়ার মাধ্যমে গ্রাহক পরিষেবা উন্নত করতে পারে, মানব-পরিষেধিত পরিচিতিগুলির পরিমাণ হ্রাস করে।
  • তারা সম্ভাব্য ঝুঁকি নির্দেশ করতে পারে এমন প্যাটার্ন এবং প্রবণতা সনাক্ত করতে বিপুল পরিমাণ ডেটা বিশ্লেষণ করে ঝুঁকি মূল্যায়নে সহায়তা করতে পারে।
  • অধিকন্তু, এলএলএমগুলি ব্যাঙ্কগুলিকে প্রবিধানের পরিবর্তনগুলির ট্র্যাক রেখে এবং সেই অনুযায়ী সম্মতি পদ্ধতিগুলি স্বয়ংক্রিয়ভাবে আপডেট করে নিয়ন্ত্রক প্রয়োজনীয়তাগুলি মেনে চলতে সহায়তা করতে পারে।

ফার্মাসিউটিক্যালস এবং মেডিকেল পণ্য শিল্প

মজার বিষয় হল, ম্যাককিন্সির একই গবেষণায় দাবি করা হয়েছে যে ফাউন্ডেশন মডেল এবং জেনারেটিভ এআই-এর জন্য ফার্মাসিউটিক্যালস এবং চিকিৎসা পণ্যগুলিকে বাড়ানো যেতে পারে। গবেষণায় বলা হয়েছে যে প্রভাব বার্ষিক $60 থেকে $110 বিলিয়ন হতে পারে। বিশেষ করে, তারা মাদক আবিষ্কারের সম্ভাবনা দেখে। এখানে কিভাবে:

  • প্রাথমিক ওষুধের বিকাশে, ফাউন্ডেশন মডেলগুলি সম্ভাব্য রাসায়নিক নির্বাচন স্বয়ংক্রিয় করে, কোষ সংস্কৃতির ম্যানুয়াল পরিদর্শন প্রতিস্থাপন করে। ফাউন্ডেশন মডেলগুলি অনুরূপ পরীক্ষামূলক চিত্রগুলিকে নির্ভুলভাবে ক্লাস্টার করে, আরও বিশ্লেষণের জন্য প্রতিশ্রুতিবদ্ধ রাসায়নিক নির্বাচন করতে সহায়তা করে।
  • ইঙ্গিত অনুসন্ধানে, রোগীর গোষ্ঠীর ক্লিনিকাল ইতিহাস এবং মেডিকেল রেকর্ডের উপর ভিত্তি করে সম্ভাব্য ওষুধের ইঙ্গিতগুলি চিহ্নিত করা হয়। এই মডেলগুলি ক্লিনিকাল ঘটনাগুলি পরিমাপ করতে, সম্পর্ক স্থাপন করতে এবং রোগীর দল এবং প্রমাণ-সমর্থিত ইঙ্গিতগুলির মধ্যে সাদৃশ্য পরিমাপ করতে সহায়তা করে। ফলাফল হল সুনির্দিষ্ট রোগীর গ্রুপ মিলের কারণে ক্লিনিকাল ট্রায়ালগুলিতে উচ্চতর সাফল্যের সম্ভাবনা সহ ইঙ্গিতগুলির একটি তালিকা।
  • এই পদ্ধতিটি ব্যবহার করে কোম্পানিগুলি উচ্চ ট্রায়াল সাফল্যের হার দেখেছে, ধাপ 3 ট্রায়ালের অগ্রগতির গতি বাড়িয়েছে।

এলএলএম এর চ্যালেঞ্জ এবং সীমাবদ্ধতা

কিন্তু ফাউন্ডেশন মডেল এবং এলএলএম-এর আশেপাশে হাইপ জাদুকরী সংশোধনের ধারণা তৈরি করতে পারে, বাস্তবতা হল এলএলএম, এবং ফাউন্ডেশন মডেলগুলি নিখুঁত নয়। যে কেউ ChatGPT ব্যাপকভাবে বা বাজারে অন্যান্য LLM ব্যবহার করেছেন তারা দেখেছেন যে, বিশেষ করে ডোমেন-নির্দিষ্ট কাজের জন্য, সরাসরি বাক্সের বাইরে LLM ব্যবহার করা ফ্ল্যাট পড়ে যেতে পারে। এখানে এলএলএম-এর কিছু চ্যালেঞ্জ এবং সীমাবদ্ধতা রয়েছে:

হ্যালুসিনেশন

সম্ভবত আমাদের সবচেয়ে সাধারণ সমস্যা হল হ্যালুসিনেশন। হ্যালুসিনেশন এমন একটি ঘটনা যেখানে এলএলএম ভুল বিবৃতি ফেরত দিতে পারে যা বিশ্বাসযোগ্য বলে মনে হয়। দুটি ধরণের হ্যালুসিনেশন রয়েছে: অভ্যন্তরীণ এবং বহির্মুখী। অভ্যন্তরীণ হ্যালুসিনেশন ঘটে যখন মডেলটি ত্রুটিযুক্ত যুক্তি ব্যবহার করে যা ব্যবহারকারীর ইনপুটের বিরুদ্ধে যায়, যখন বহিরাগত হ্যালুসিনেশন ঘটে যখন মডেল ব্যবহারকারীর প্রশ্নের প্রসঙ্গে ভুল বোঝে।

স্মৃতির সীমাবদ্ধতা

GPT-এর মতো ফাউন্ডেশন মডেলগুলির একটি ছোট প্রসঙ্গ উইন্ডো থাকে এবং ইনপুট হিসাবে শুধুমাত্র সীমিত সংখ্যক অক্ষর নিতে পারে, যা নির্দিষ্ট অ্যাপ্লিকেশনের জন্য আদর্শ নাও হতে পারে। মানুষের মতো, ইনপুটের দৈর্ঘ্য বাড়ার সাথে সাথে মডেলটির জন্য এটিকে সঠিকভাবে প্রক্রিয়া করতে অসুবিধা হয়।

সর্বনাশা ভুলে যাওয়া

বিপর্যয়মূলক ভুলে যাওয়া একটি ঘটনা যা ঘটে যখন একটি কৃত্রিম নিউরাল নেটওয়ার্ককে পর্যায়ক্রমে একাধিক কাজের প্রশিক্ষণ দেওয়া হয়, এবং টাস্ক A-এর জন্য নেটওয়ার্কের গুরুত্বপূর্ণ ওজনগুলি টাস্ক B-এর উদ্দেশ্যগুলির সাথে সারিবদ্ধ করার জন্য পরিবর্তিত হয়। এর ফলে নেটওয়ার্ক টাস্ক A ভুলে যেতে পারে, যদিও এটি আগে এটি ভালভাবে সম্পাদন করতে সক্ষম হয়েছিল।

ডেটা মানের সমস্যা

এলএলএম, যেগুলি প্রাথমিকভাবে লেবেলবিহীন ডেটাতে প্রশিক্ষিত, তারা পক্ষপাতের প্রবণ হতে পারে কারণ তাদের প্রশিক্ষণ প্রক্রিয়ায় ব্যবহৃত ডেটা বাস্তব-বিশ্বের ডেটা বিতরণের সঠিক উপস্থাপনা নাও হতে পারে। কারণ প্রশিক্ষণের জন্য ব্যবহৃত পক্ষপাতমূলক ডেটা মডেলের আউটপুটে প্রতিফলিত হতে পারে।

এই সীমাবদ্ধতাগুলি কোম্পানি এবং এন্টারপ্রাইজগুলিকে কৌশলগতভাবে চিন্তা করতে পরিচালিত করে যে তারা কীভাবে LLM-এর সাথে কাজ করতে চায়। প্রকৃতপক্ষে, কোম্পানিগুলি কীভাবে কাজ করে তা পরিবর্তন করার জন্য এলএলএমগুলির ব্যাপক সম্ভাবনা রয়েছে, যা তাদের আরও মূল্য দিতে পারে, তবে এই চ্যালেঞ্জগুলি অবশ্যই মোকাবেলা করতে হবে। এখানেই একটি বিদ্যমান এলএলএম তৈরি বা ফাইন-টিউনিংয়ের প্রশ্ন উঠতে পারে।

আপনি কখন একটি বিদ্যমান LLM তৈরি বা সূক্ষ্ম-টিউন করবেন

স্ক্র্যাচ থেকে আপনার বড় ভাষার মডেল (LLM) তৈরি করা

স্ক্র্যাচ থেকে এলএলএম তৈরি করা কখন বোঝা যায়? আপনার নিজের এলএলএম তৈরি করা সবচেয়ে বেশি অর্থবহ হবে যদি আপনার একটি খুব অনন্য ব্যবহারের ক্ষেত্রে থাকে যা বিদ্যমান সাধারণ এলএলএমগুলি পরিবেশন করতে পারে না বা যদি এলএলএম আপনার কোম্পানির জন্য একটি মূল পণ্য বা একটি প্রাথমিক ব্যবসায়িক ড্রাইভার হয়ে ওঠে। উপরন্তু, যদি আপনার কাছে প্রচুর পরিমাণে মূল্যবান মালিকানাধীন ডেটা অ্যাক্সেস থাকে, তবে ডেটা গোপনীয়তা এবং নিরাপত্তা বজায় রেখে আপনার সুবিধার জন্য এটি ব্যবহার করার জন্য একটি LLM তৈরি করাও বোধগম্য হবে।

একটি এলএলএম ফাইন-টিউনিং

একটি LLM ফাইন-টিউনিং করার সময় আপনার কাছে দুটি বিকল্প রয়েছে: বিদ্যমান ওপেন-সোর্স LLM-এর সাথে যাওয়া বা বাণিজ্যিক LLM-এর API ব্যবহার করা। আপনার টিমের প্রযুক্তিগত দক্ষতা কম থাকলে একটি বাণিজ্যিক এলএলএম আরও অর্থবহ হতে পারে, যখন একটি ওপেন-সোর্স মডেল আপনাকে আরও নিয়ন্ত্রণ দেবে। এটি বলেছে, একটি এলএলএম ফাইন-টিউনিংয়ের সাথে যুক্ত ঝুঁকি রয়েছে। আপনাকে সম্ভাব্য পক্ষপাত, বিষাক্ততা এবং ডেটা সুরক্ষা এক্সপোজারগুলির জন্য নজর রাখতে হবে। অতিরিক্তভাবে, বাণিজ্যিক APIগুলি মডেলের কাস্টমাইজযোগ্যতা এবং প্রশিক্ষণ ডেটা এবং পণ্যের নিয়ন্ত্রণকে সীমাবদ্ধ করতে পারে।

একটি বিদ্যমান এলএলএম তৈরি বা ফাইন-টিউনিং করার ক্ষেত্রে মূল বিবেচ্য বিষয়গুলি

সম্পদ বণ্টন

আপনি সূক্ষ্ম টিউনিং করছেন বা না করছেন বা স্ক্র্যাচ থেকে একটি LLM তৈরি করতে বেছে নিচ্ছেন, জেনে রাখুন যে আপনার লক্ষ্যে পৌঁছানোর জন্য আপনাকে উল্লেখযোগ্য সংস্থান বরাদ্দ করতে ইচ্ছুক হতে হবে। স্ক্র্যাচ থেকে একটি LLM তৈরি করতে সময় এবং আর্থিক উত্সর্গের পাশাপাশি সঠিক দক্ষতার সন্ধানের জন্য বিশাল গণনা শক্তির প্রয়োজন।


উদাহরণস্বরূপ, প্রায় 175 বিলিয়ন প্যারামিটার সহ একটি বৃহৎ ভাষার মডেল, OpenAI-এর GPT-3-এর অনুমান $4.6 মিলিয়নের বেশি । ওপেনএআই মাইক্রোসফ্ট থেকে একটি সুপার কম্পিউটারে বিনিয়োগ করেছে যাতে 285,000 এর বেশি CPU কোর এবং 10,000 GPU রয়েছে। ব্লুমবার্গের ছোট ব্লুমবার্গজিপিটি মডেল, 50 বিলিয়ন প্যারামিটার সহ, এটি নির্মাণে প্রায় $2.7 মিলিয়ন খরচ হবে বলে অনুমান করা হয়েছে। এই অনুমানগুলি এই এলএলএমগুলিকে কার্যকরী করা এবং তা নিশ্চিত করার জন্য প্রয়োজনীয় মডেল পুনরাবৃত্তিকে কভার করে না।


LLM-এর বিশাল আকার কার্যকরভাবে পরিচালনা করার জন্য, এটি নিশ্চিত করা প্রয়োজন যে ডেটা পর্যাপ্তভাবে পরিষ্কার, লেবেলযুক্ত, সংগঠিত এবং দক্ষতার সাথে সংরক্ষণ করা হয়েছে। মনে রাখবেন যে ডেটা পরিচালনা এবং প্রক্রিয়াকরণ ব্যয়বহুল হতে পারে, বিশেষ করে প্রয়োজনীয় অবকাঠামো, সরঞ্জাম এবং ডেটা ইঞ্জিনিয়ার বিবেচনা করে।


একটি এলএলএমকে ফাইন-টিউনিং করা, অবশ্যই, এটি আরও ব্যবহারিক হতে পারে কারণ এটি আপনার প্রতিষ্ঠানের নিজস্ব নির্মাণের চেয়ে কম খরচ করে। একটি এলএলএম ফাইন-টিউন করার খরচ মডেলের আকার, এটিকে সূক্ষ্ম-টিউন করার জন্য ব্যবহৃত ডেটার পরিমাণ এবং ব্যবহৃত কম্পিউটিং সংস্থান সহ বিভিন্ন কারণের উপর নির্ভর করে।


একটি এলএলএম ফাইন-টিউনিং এর খরচও ব্যবহৃত নির্দিষ্ট ফাইন-টিউনিং অ্যালগরিদম দ্বারা প্রভাবিত হতে পারে এবং কিছু অ্যালগরিদম অন্যদের তুলনায় গণনাগতভাবে বেশি ব্যয়বহুল। OpenAI-এর ফাইন-টিউনিং মডেলগুলির দাম প্রতি 1,000 টোকেনে $0.0004 থেকে $0.0300 হতে পারে এবং আপনি প্রশিক্ষণের জন্য যে মডেলটি ব্যবহার করবেন তার উপর নির্ভর করবে। এবং তার পরে প্রতি 1,000 টোকেনগুলিতে প্রায় $0.0016 থেকে $0.1200 ব্যবহারের জন্য একটি অতিরিক্ত খরচ।


এটি বলেছে, বিভিন্ন ফাইন-টিউনিং কৌশলের অগ্রগতি এটি তৈরি করেছে যাতে আর্থিক এবং গণনামূলক খরচ কমানো যায়। একটি উদাহরণ হল সূক্ষ্ম-টিউন GPT-3 করার জন্য ন্যায্যতা এবং স্বচ্ছতার পদ্ধতির সাথে নীতি মূল্যায়নের আলিঙ্গন মুখের ব্যবহার । এই পদ্ধতি এবং বিটস্যান্ডবাইট লাইব্রেরি ব্যবহার করে, হাগিং ফেস প্রমাণ করেছে যে উপলব্ধ GPU মেমরির থেকে উল্লেখযোগ্যভাবে বড় একটি LLM-কে ফাইন-টিউন করা সম্ভব। আমরা এই নিবন্ধে আরও কয়েকটি পদ্ধতি নিয়ে আলোচনা করব।

কারিগরি দক্ষতা

এতে অবাক হওয়ার কিছু নেই যে একটি এলএলএম তৈরি এবং সূক্ষ্ম টিউন করার জন্য উন্নত প্রযুক্তিগত দক্ষতা প্রয়োজন। একজন সিনিয়র মেশিন লার্নিং প্রকৌশলী এলএলএমকে সূক্ষ্ম সুর করার জন্য প্রয়োজনীয় জ্ঞান দিয়ে সজ্জিত হবেন। যাইহোক, স্ক্র্যাচ থেকে আপনার নিজের এলএলএম সঠিকভাবে নেতৃত্ব দিতে এবং তৈরি করতে আপনার সত্যিকারের ব্যতিক্রমী মেশিন লার্নিং ইঞ্জিনিয়ারদের একটি দলের প্রয়োজন হবে। ওপেনএআই, মেটা এবং গুগল এআই-এর মতো এআই কোম্পানির নেতৃস্থানীয় বিজ্ঞানী, গবেষক এবং স্থপতিদের প্রোফাইল দেখে নিন যাতে আপনার প্রতিষ্ঠানের নিজস্ব এলএলএম তৈরি করতে আপনার দলে কী ধরনের প্রকৌশলী থাকতে হবে সে সম্পর্কে আরও ভাল ধারণা পেতে আঁচড় আপনাকে নিশ্চিত করতে হবে যে এই গবেষকদের আপনার শিল্প এবং ব্যবসা সম্পর্কে শক্তিশালী ডোমেন জ্ঞান রয়েছে।

ডেটার আকার, গুণমান এবং নৈতিক বিবেচনা

আবর্জনা আবর্জনা


এটা সুপরিচিত যে স্ক্র্যাচ থেকে আপনার নিজস্ব LLM তৈরি করতে প্রচুর পরিমাণে ডেটার প্রয়োজন হবে। উদাহরণস্বরূপ, LLaMA 4.6 টেরাবাইটে পৌঁছে 1.4 ট্রিলিয়ন টোকেন ধারণকারী একটি প্রশিক্ষণ ডেটাসেট ব্যবহার করেছে। LLaMA এর ছোট সংস্করণগুলিকে 1 ট্রিলিয়ন টোকেনে প্রশিক্ষণ দেওয়া হয়েছিল। জিপিটির ক্ষেত্রে ১.৫ ট্রিলিয়ন টোকেন ব্যবহার করা হয়েছে।


আপনার পদ্ধতি এবং সংস্থানগুলির উপর নির্ভর করে সূক্ষ্ম-টিউনিং এলএলএমগুলির জন্য, আপনার কম প্রয়োজন হবে৷ একটি উদাহরণ Google এর Med-PaLM 2, যা PaLM LLM থেকে সূক্ষ্ম-টিউন করা হয়েছিল। কাগজ অনুসারে, এআই টিম নির্দেশনা ফাইন-টিউনিং ব্যবহার করেছে এবং 193,000 উদাহরণের প্রয়োজন যা প্রায় 19 মিলিয়ন থেকে 39 মিলিয়ন টোকেন হবে। Med-PaLM 2 MedQA ডেটাসেটে 86.5% স্কোর করে তার পূর্বসূরির তুলনায় একটি নতুন অত্যাধুনিক সেট করেছে, যা Med-PaLM এবং PaLM-এর কর্মক্ষমতা পরিমাপ করতে ব্যবহৃত হয়েছিল।


কিন্তু ডেটা আকারের চেয়েও বেশি, কোম্পানিগুলিকে অবশ্যই নিশ্চিত করতে হবে যে তারা সঠিক ডেটা মানের ব্যবস্থা গ্রহণ করেছে কারণ "আবর্জনা ভিতরে, আবর্জনা আউট" এখনও প্রযোজ্য বৃহৎ ভাষার মডেলগুলির ক্ষেত্রেও যেগুলি প্রচুর পরিমাণে প্রশিক্ষণ ডেটা ব্যবহার করে৷


মালিকানাধীন ডেটা ব্যবহার করার সময়, আরও কার্যকরী মডেলের জন্য গুণমান এবং নৈতিকতাকে উচ্চ মানদণ্ডে রাখা হয়েছে তা নিশ্চিত করতে সংস্থাগুলিকে নিম্নলিখিত কাজগুলি বের করতে হবে:


  1. ডেটা ডিডুপ্লিকেশন এবং ক্লিনজিং: এই প্রক্রিয়ার মধ্যে ডেটাসেটের ডুপ্লিকেট এন্ট্রিগুলি সনাক্ত করা এবং অপসারণ করা জড়িত যাতে ডেটা সঠিক এবং নির্ভরযোগ্য। এতে তথ্যের ত্রুটি, অসঙ্গতি এবং ভুলত্রুটি সংশোধন করাও রয়েছে, যেমন অনুপস্থিত মান বা ভুল বিন্যাস। ভুল বা অপ্রয়োজনীয় ডেটার উপর মডেলকে প্রশিক্ষণ না দেওয়ার জন্য এই পদক্ষেপটি অত্যন্ত গুরুত্বপূর্ণ, যার ফলে মডেলের কার্যকারিতা খারাপ হতে পারে।
  2. ডেটা মডারেশন: সংস্থাগুলিকে তাদের মডেল প্রশিক্ষণের জন্য ব্যবহৃত ডেটা সংযম করার জন্য একটি প্রক্রিয়া স্থাপন করতে হবে। এতে ম্যানুয়ালি ডেটা পর্যালোচনা করা, স্বয়ংক্রিয় সরঞ্জাম ব্যবহার করা, বা অনুপযুক্ত বা ক্ষতিকারক সামগ্রী ফিল্টার করার জন্য আদর্শভাবে উভয়ের সংমিশ্রণ জড়িত থাকতে পারে। কার্যকরী ডেটা সংযম নিশ্চিত করতে সাহায্য করে যে মডেল নিজেই এই ধরনের সামগ্রী তৈরি করতে শিখবে না।
  3. ডেটা গোপনীয়তা: সংস্থাগুলিকে নিশ্চিত করতে হবে যে তাদের ডেটা গোপনীয়তার মানকে সম্মান করে এবং প্রাসঙ্গিক প্রবিধানগুলি মেনে চলে, যেমন GDPR বা CCPA। এতে ব্যক্তিগত ডেটা বেনামী করা, ডেটা ব্যবহারের জন্য প্রয়োজনীয় অনুমতি নেওয়া এবং নিরাপদ ডেটা সঞ্চয়স্থান এবং পরিচালনার অনুশীলনগুলি প্রয়োগ করা জড়িত থাকতে পারে। এটি শুধুমাত্র নৈতিক কারণেই নয়, আইনি সমস্যা এড়াতেও গুরুত্বপূর্ণ।
  4. ডেটা পক্ষপাত: মডেলকে প্রশিক্ষণের জন্য ব্যবহৃত ডেটাতে প্রায়ই পক্ষপাত থাকতে পারে, যা মডেল তখন শিখতে পারে এবং স্থায়ী হতে পারে। সংস্থাগুলিকে ডেটাতে এই পক্ষপাতগুলি সনাক্ত এবং প্রশমিত করার জন্য প্রক্রিয়াগুলি বাস্তবায়ন করতে হবে। এর মধ্যে বিভিন্ন তথ্য সংগ্রহের কৌশল, পক্ষপাত নিরীক্ষার সরঞ্জাম এবং ডেটা ডিবিয়াস করার পদ্ধতি জড়িত থাকতে পারে। ন্যায্য বিল্ডিং মডেলের জন্য ডেটা পক্ষপাতের সমাধান করা অপরিহার্য এবং এটি বিভিন্ন জনসংখ্যা জুড়ে নির্ভরযোগ্য ফলাফল তৈরি করে।

মডেল কর্মক্ষমতা

সংস্থার লক্ষ্যগুলির উপর নির্ভর করে, একটি এলএলএমকে সূক্ষ্ম-টিউনিং আসলে যথেষ্ট হতে পারে। আপনার প্রতিষ্ঠানের প্রয়োজন অনুসারে এবং এর কর্মক্ষমতা উন্নত করার জন্য একটি LLM মানিয়ে নেওয়ার বিভিন্ন উপায় রয়েছে। যাইহোক, আমরা সর্বোত্তম পদ্ধতি নির্ধারণ করতে একটি পশ্চাদপদ পদ্ধতি অনুসরণ করার পরামর্শ দিই। এই পদ্ধতিটি একটি এলএলএমকে ফাইন-টিউনিং করার জন্য খরচ কমাতেও সাহায্য করে, কারণ আপনি এই ধাপগুলিতে যত বেশি "পিছিয়ে" যান, কৌশলগুলি তত বেশি ব্যয়বহুল হতে পারে।


এর সহজতম উপায়ে এটি ভেঙে দেওয়া যাক।


সাধারণত, একটি ফাউন্ডেশন মডেল বা এলএলএম প্রশিক্ষণের শুরু হয় মেশিন লার্নিং ইঞ্জিনিয়ারদের অ-তদারকি প্রশিক্ষণের মধ্য দিয়ে যাওয়া, তারপর এলএলএমকে সূক্ষ্ম সুর করার জন্য তত্ত্বাবধানে প্রশিক্ষণ এবং অবশেষে প্রয়োজনীয় আউটপুট পাওয়ার জন্য প্রম্পট এবং প্রম্পট টিউনিং দিয়ে। অবশ্যই, এর মধ্যে বিভিন্ন ধাপ রয়েছে, তবে আমরা এই তিনটি ধাপে আটকে থাকব।

একটি এলএলএম ফাইন-টিউনিং


একটি এলএলএম ফাইন-টিউনিং করার জন্য আমাদের প্রস্তাবিত পথটি পিছিয়ে যাবে। যেখানে আপনি প্রথমে প্রম্পট-টিউনিং শুরু করেন, যার মধ্যে রয়েছে প্রম্পট ইঞ্জিনিয়ারিং এবং প্রম্পট ডিবাগিং। এটি সর্বনিম্ন সম্পদ ব্যবহার করবে। যাইহোক, ধরুন LLM স্থির হয়ে যাচ্ছে বা আপনার ইচ্ছা মত পারফর্ম করছে না। সেই ক্ষেত্রে, আপনি তত্ত্বাবধানে/নির্দেশনা ফাইন-টিউনিং-এ এগিয়ে যান, যার মধ্যে RLHF, পুনরুদ্ধার-বর্ধিত প্রজন্ম, বা স্থানান্তর শেখার মতো পদ্ধতি অন্তর্ভুক্ত থাকতে পারে।


উদাহরণস্বরূপ, আমরা শুধুমাত্র 200টি লেবেলযুক্ত উদাহরণ ব্যবহার করে ট্রান্সফার লার্নিংয়ের মাধ্যমে একটি নির্দিষ্ট ডিফেকশন ডিফেকশন শ্রেণীবিভাগ ব্যবহারের ক্ষেত্রে DinoV2-এর নির্ভুলতা 83 থেকে 95% পর্যন্ত বাড়িয়েছি


অবশেষে, যদি অন্য সব কিছু ব্যর্থ হয়, পরবর্তী পদক্ষেপটি হবে তত্ত্বাবধানহীন পদ্ধতির জন্য এবং মডেলটির প্রাক-প্রশিক্ষণের জন্য আমাদের একটি উপযুক্ত ডেটাসেট আছে তা নিশ্চিত করা।

রক্ষণাবেক্ষণ এবং আপডেট

গতিশীল পরিবেশে মোতায়েন করা বেশিরভাগ মডেলের মতো, বিল্ট বা ফাইন-টিউন করা হোক না কেন, LLM-গুলিকে নতুন ডেটার সাথে কার্যকর থাকার জন্য পুনরাবৃত্তির প্রয়োজন হয়। পুনরুক্তি হল একটি মডেলকে নতুন ডেটা বা রিফ্রেশ করা উদ্দেশ্যের সাথে রিফিটিং করা। কোম্পানিগুলিকে অবশ্যই তাজা ডেটাসেটগুলি ব্যবহার করে নিয়মিতভাবে পুনরাবৃত্তি করার জন্য শক্তিশালী প্রক্রিয়া তৈরি করতে হবে, সাধারণত পুনরাবৃত্ত, বিল্ডিং/ফাইন-টিউনিং, টেস্টিং এবং সেগুলিকে উত্পাদনে স্থাপন সহ।


যেসব কোম্পানি সফল এলএলএম তৈরি করেছে, যেমন ওপেনএআই, তারা ক্রমাগত GPT-3-এর নতুন সংস্করণ তৈরি করে। যদিও ChatGPT-এর প্রশিক্ষণ ডেটা কাট-অফ সেপ্টেম্বর 2021, OpenAI মডেলের ভবিষ্যদ্বাণী করার ক্ষমতা উন্নত করতে, পক্ষপাত কমাতে এবং কম ক্ষতি করতে ব্যবহারকারীর আচরণ থেকে নতুন ডেটা ব্যবহার করে।

ব্যবসা কৌশল প্রান্তিককরণ

একটি এলএলএম তৈরি করা বা ফাইন-টিউনিং করা অর্থপূর্ণ হবে কিনা তার জন্য আপনার ব্যবসার উদ্দেশ্যও একটি গুরুত্বপূর্ণ বিষয়। কোম্পানীর বৃহত্তর কৌশলগত দৃষ্টিভঙ্গির সাথে LLM-এর ক্ষমতাগুলি কীভাবে কাজ করে তা বিবেচনা করুন। এইভাবে, আপনি এই শক্তিশালী সরঞ্জামগুলিকে তাদের মূল ব্যবসায়িক উদ্দেশ্যগুলিতে মনোনিবেশ করার সময় তাদের পূর্ণ সম্ভাবনার জন্য ব্যবহার করেন। এই নিবন্ধের শীর্ষে উল্লিখিত শিল্পগুলিতে কিছু উদাহরণ উদ্ধৃত করা হয়েছে, কিন্তু এখন আসুন কিছু কাজ নিয়ে আলোচনা করা যাক যেগুলি এলএলএমগুলি এক্সেল করে এবং বিভিন্ন শিল্পের জন্য তাদের কৌশলগত প্রভাব:


  1. সংক্ষিপ্তকরণ: এলএলএম দীর্ঘ নথি বা প্রতিবেদন থেকে মূল পয়েন্ট এবং সারাংশ বের করতে পারে। যে শিল্পগুলিতে প্রচুর পরিমাণে পাঠ্য ডেটা পরিচালনা করে সেগুলির ক্ষেত্রে এটি অত্যন্ত মূল্যবান হতে পারে। উদাহরণ স্বরূপ, মার্কেট রিসার্চ কোম্পানি, যারা বিস্তৃত রিপোর্ট তৈরি করে এবং বিশ্লেষণ করে, তারা LLM ব্যবহার করে সংক্ষিপ্ত সারাংশ তৈরি করতে পারে, যার ফলে ক্লায়েন্টদের সাথে অন্তর্দৃষ্টি বের করা এবং ফলাফলগুলি ভাগ করা সহজ হয়।
  2. পাঠ্য সমাপ্তি: এলএলএমগুলি প্রদত্ত প্রম্পটের উপর ভিত্তি করে পাঠ্যের পূর্বাভাস এবং তৈরি করতে পারে, যা সামগ্রী তৈরিতে সহায়তা করতে ব্যবহার করা যেতে পারে। বিষয়বস্তু তৈরি বা যোগাযোগ পরিষেবাগুলিতে নিযুক্ত শিল্পগুলি উত্পাদনশীলতা এবং সৃজনশীলতা বাড়াতে এর সুবিধা নিতে পারে।
  3. প্রশ্ন ও উত্তর (প্রশ্ন ও উত্তর): এলএলএম একটি প্রদত্ত প্রেক্ষাপটের উপর ভিত্তি করে প্রশ্নের উত্তর দিতে পারে, যা তাদের অসংখ্য শিল্প জুড়ে গ্রাহক পরিষেবায় উপযোগী করে তোলে। উদাহরণস্বরূপ, ব্যাঙ্কগুলি LLM-চালিত চ্যাটবটগুলিকে চব্বিশ ঘন্টা গ্রাহকের প্রশ্নগুলি পরিচালনা করতে, তাদের ক্লায়েন্টদের দ্রুত, সঠিক তথ্য সরবরাহ করতে এবং গ্রাহক পরিষেবা কর্মীদের কাজের চাপ কমাতে পারে৷
  4. চ্যাটবট: প্রশ্নোত্তর ছাড়াও, এলএলএমগুলি আরও ইন্টারেক্টিভ এবং কথোপকথনমূলক চ্যাটবটগুলিকে শক্তিশালী করতে পারে, প্রসঙ্গ বুঝতে এবং একাধিক বাঁক নিয়ে কথোপকথন বজায় রাখতে সক্ষম। এটি খুচরা, টেলিযোগাযোগ এবং আতিথেয়তার মতো শিল্পগুলিতে গ্রাহকের অভিজ্ঞতা বাড়াতে পারে, যেখানে ভোক্তা মিথস্ক্রিয়া অত্যাবশ্যক।
  5. অনুবাদ: এলএলএমগুলি বিভিন্ন ভাষার মধ্যে পাঠ্য অনুবাদ করতে পারে, সম্ভাব্যভাবে বিশ্বব্যাপী ব্যবসায় যোগাযোগের বাধা ভেঙে দেয়। এই ক্ষমতা পর্যটন, আন্তর্জাতিক বাণিজ্য, এবং বিভিন্ন ভাষাগত অঞ্চল জুড়ে কাজ করে এমন বৈশ্বিক প্রযুক্তি সংস্থাগুলির মতো শিল্পগুলিকে উপকৃত করতে পারে।

বড় ভাষা মডেল মূল্যায়ন

আপনি একটি LLM নির্মাণ বা ফাইন-টিউনিং করুন না কেন, সঠিক LLM নির্বাচন করা প্রায়শই প্রথম পদক্ষেপ। হ্যাঁ, এমনকি একটি এলএলএম তৈরির জন্য, এটি একটি সাধারণ মডেলের আর্কিটেকচারের দিকে নজর দেওয়া এবং সেখান থেকে শুরু করা সাধারণ। আপনার পছন্দ যাই হোক না কেন, দলগুলিকে অবশ্যই তাদের সেরা সূচনা পয়েন্ট খুঁজে পেতে বেশ কয়েকটি মডেলের সাথে পরীক্ষা এবং মূল্যায়ন করতে হবে।


এলএলএম-এর মূল্যায়নও তার নিজস্ব চ্যালেঞ্জের সাথে আসে। সর্বোপরি, এটি এখনও গবেষণার একটি চলমান ক্ষেত্র, তাই এই মডেলগুলির মূল্যায়নের কোনও কঠোর মানককরণ বা পদ্ধতিগতকরণ নেই।


অবশ্যই, HuggingFace-এর মতো সম্প্রদায়ের দ্বারা সেট করা লিডারবোর্ড রয়েছে, যা আপনাকে একটি সাধারণ ধারণা দিতে পারে যে একটি মডেল কতটা ভালো পারফর্ম করবে। কিন্তু লিডারবোর্ডে যা ভালো পারফর্ম করতে পারে তা আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে সহজে অনুবাদ নাও করতে পারে। এলএলএমগুলি প্রায়শই বেঞ্চমার্ক ডেটাসেটে মূল্যায়ন করা হয়, তবে তাদের কার্যকারিতা সঠিকভাবে প্রতিফলিত নাও হতে পারে যে তারা বাস্তব-বিশ্বের পরিস্থিতিতে কীভাবে কাজ করবে, যা অনেক বেশি বৈচিত্র্যময় এবং অপ্রত্যাশিত হতে পারে।


বৃহৎ ভাষা মডেলের মূল্যায়ন করার জন্য দুটি পন্থা রয়েছে: একটি পরিমাণগত এবং একটি গুণগত পদ্ধতি। দুজনেই তাদের সতর্কতা নিয়ে আসে।

পরিমাণগত মূল্যায়ন

পরিমাণগত মূল্যায়নে প্রায়শই মেশিন লার্নিং মেট্রিক্স যেমন বিভ্রান্তি, BLEU, ক্রস-এনট্রপি লস ইত্যাদি জড়িত থাকে। ওপেনএআই ইভাল লাইব্রেরি, এলএম-ইভাল পাইথন প্যাকেজ EleutherAI-এর মতো টুল এবং ল্যাংগুয়েজ মডেলের হোলিস্টিক ইভালুয়েশন (HELM) ব্যবহারকারীদের তাদের মূল্যায়ন করতে দেয়। পরিমাণগতভাবে অসংখ্য বেঞ্চমার্কের মডেল।


যদিও পরিমাণগত মূল্যায়ন সহজবোধ্য, এই মেট্রিকগুলি ব্যবহারকারীদের তাদের নির্দিষ্ট কাজের জন্য একটি উপযুক্ত মডেল নির্বাচন করতে অগত্যা সাহায্য করতে পারে না। ব্যবহারকারীদের প্রায়শই এমন একটি মডেলের প্রয়োজন হয় যা তাদের নির্দিষ্ট কাজের ক্ষেত্রে পারদর্শী হয়, যেমন একটি আইনি নথির খসড়া তৈরি করা বা একটি কোম্পানির আর্থিক প্রতিবেদন বিশ্লেষণ করা, এমন একটি মডেলের পরিবর্তে যা সর্বোচ্চ নির্ভুলতার সাথে পরবর্তী টোকেনের পূর্বাভাস দিতে পারে।

গুণগত মূল্যায়ন

গুণগত মূল্যায়নে সমন্বয়, পক্ষপাত, সৃজনশীলতা এবং নির্ভরযোগ্যতার মতো মানদণ্ড ব্যবহার করে নির্দিষ্ট কাজের উপর ভিত্তি করে এলএলএম মূল্যায়ন জড়িত। এই ম্যানুয়াল মূল্যায়ন তুলনামূলকভাবে ধীর কারণ মানুষের মূল্যায়নকারীদের গতি এবং প্রাপ্যতা এটিকে বাধাগ্রস্ত করতে পারে। যাইহোক, ডেটা লেবেলিং-এ একই অটোমেশন কৌশল প্রয়োগ করে প্রক্রিয়াটিকে অপ্টিমাইজ করা সম্ভব: সক্রিয় শিক্ষা, প্রোগ্রামেটিক QA, অটো QA ইত্যাদি।


আপনার কোম্পানির নির্দিষ্ট ডেটাসেট ব্যবহার করে পরিমাণগত এবং গুণগত উভয় মূল্যায়নের সংমিশ্রণকে সূক্ষ্ম-টিউন বা বেস-অন করার জন্য সেরা LLM খুঁজে বের করার পরামর্শ দেওয়া হবে।

সেরা অনুশীলন

স্কেলিং আইন বুঝুন

কম্পিউট বাজেট প্রসারিত হওয়ার সাথে সাথে ডেটাসেটের আকারের তুলনায় মডেলের আকার বাড়ানোর উপর ফোকাস করার জন্য মেশিন লার্নিং-এ স্কেলিং আইন ব্যবহৃত হয়। এটি ধারণার অধীনে ছিল যে বৃহত্তর মডেলগুলি আরও অন্তর্দৃষ্টি বের করতে পারে এবং ডেটার পরিমাণ স্থির থাকলেও আরও ভাল কার্য সম্পাদন করতে পারে।


কিন্তু 2022 সালে, ডিপমাইন্ড এই পদ্ধতিকে চ্যালেঞ্জ করেছিল , পরামর্শ দিয়েছিল যে মডেলগুলি সাধারণত কম প্রশিক্ষণপ্রাপ্ত হয় এবং তাই, ডেটাসেটের আকার মডেলের আকারের পাশাপাশি বৃদ্ধি করা উচিত। ডিপমাইন্ডের অনুসন্ধান অনুসারে, কম্পিউটিং শক্তিতে প্রতি দশগুণ বৃদ্ধির জন্য মডেল এবং ডেটাসেটের আকার প্রায় তিনগুণ বৃদ্ধি করা উচিত। এটি বোঝায় যে বর্তমান মডেলগুলি সর্বোত্তম ডেটা/কম্পিউট বক্ররেখার নীচে রয়েছে এবং কেবলমাত্র সেগুলিকে বড় করা ডেটার সাথে বৃদ্ধি ছাড়া ভাল ফলাফল দেবে না।


এই নতুন স্কেলিং আইনগুলি উপলব্ধ তথ্যের উপর ভিত্তি করে প্রথমে সর্বোচ্চ উচ্চ-মানের ডেটাসেটের আকার নির্ধারণ করার সুপারিশ করে। তারপর, ডিপমাইন্ড-এর ডেটা-অনুকূল স্কেলিং আইন ব্যবহার করে উপলব্ধ গণনার উপর ভিত্তি করে সেই ডেটাসেটের জন্য সর্বোত্তম মডেলের আকার বেছে নেওয়া যেতে পারে। মডেলগুলিকে ইচ্ছামত বড় না করে ডেটার উপর ভিত্তি করে সঠিক ভারসাম্য খুঁজে বের করা অপরিহার্য। অধিকন্তু, বৃহত্তর ডেটাসেটগুলি সংগ্রহ করার জন্য দক্ষতার প্রয়োজন এবং সাধারণীকরণের উন্নতির জন্য বৈচিত্র্যের প্রয়োজন, যা প্রক্রিয়াটিতে জটিলতার আরেকটি স্তর যুক্ত করে।

উপাত্ত গুণমান

তথ্য গুণমান প্রভাবিত ফ্যাক্টর


আপনি ফাইন-টিউনিং করুন বা একটি LLM তৈরি করুন না কেন, মডেলগুলি কেবলমাত্র তাদের দেওয়া ডেটার মতোই ভাল হবে৷ তাই আপনার ডেটা অবশ্যই প্রতিনিধিত্বশীল এবং ব্যাপকভাবে প্রিপ্রসেসড হতে হবে। ডাটা উৎসের বৈচিত্র্য এমনকি ডোমেন-নির্দিষ্ট এলএলএম-এর জন্যও উপকারী।


উদাহরণ স্বরূপ, Google-এর Med-PaLM 2 মডেলটিকে সঠিকভাবে সূক্ষ্মভাবে তৈরি করার জন্য বেশ কয়েকটি স্বাস্থ্য ও চিকিৎসা QA ডেটাসেট থেকে শত শত থেকে হাজার হাজার উদাহরণের প্রয়োজন। এবং ব্লুমবার্গজিপিটি তৈরি করার জন্য, তিনি ব্যবহৃত ডেটাসেট মিশ্রণটি 51% আর্থিক ডেটা এবং 49% সাধারণ ডোমেন ডেটা সাময়িক বৈচিত্র্যের জন্য ব্যবহার করেছিলেন । উভয় ক্ষেত্রেই, গবেষকরা কার্যকর মডেল তৈরি করতে উচ্চ-মানের এবং প্রাসঙ্গিক ডেটা ব্যবহার করা হয়েছে তা নিশ্চিত করার জন্য ব্যাপক ডেটা কিউরেশন করেছেন।

প্রাক-প্রশিক্ষণ এবং ক্রমবর্ধমান ধাপে পরীক্ষা করা

এলএলএম তৈরি বা ফাইন-টিউনিং করার ক্ষেত্রে কোনও সরাসরি পথ নেই। বেশিরভাগ মেশিন লার্নিং বা AI প্রচেষ্টার মতো, ছোট থেকে শুরু করা সর্বদা একটি ভাল পরিমাপ । একটি ছোট ডেটাসেটে একটি ছোট মডেল দিয়ে শুরু করা পরীক্ষাকে সহজ করে তুলবে৷ মডেল আর্কিটেকচারে ক্রমবর্ধমান পরিবর্তনগুলি পুনরাবৃত্তি করা এবং প্রবর্তন করা, যেমন প্রস্থ, গভীরতা, স্প্যার্সিটি ইত্যাদি, আপনার দলের পক্ষে তাদের প্রভাব মূল্যায়ন করা সহজ করে তুলবে৷ আপনি পুরানো বিদ্যমান মডেলগুলি দিয়ে শুরু করতে পারেন, সেগুলিকে আপনার প্রয়োজনের সাথে সামঞ্জস্য করতে পারেন এবং সেখান থেকে শুরু করতে পারেন৷ একবার আপনার ছোট মডেলটি ভালভাবে কাজ করলে, আপনি ধীরে ধীরে মডেল এবং ডেটাসেটের আকার বাড়াতে পারেন।


একটি ফলব্যাক প্রয়োজন হলে ব্যাকআপ হিসাবে আপনার মডেলের স্ন্যাপশটগুলি সংরক্ষণ করতে ভুলবেন না৷ আপনি বিল্ডিং বা ফাইন-টিউনিং করুন না কেন বিপত্তি অনিবার্য হবে, তাই সমস্যাগুলির পূর্বাভাস করা গুরুত্বপূর্ণ।

অস্থিরতা প্রশমন

এটি আমাদের অস্থিরতা প্রশমনের সমালোচনামূলক সময় বাঁচানোর অনুশীলনের দিকে নিয়ে যায়। মডেল যত বড়, রক্ষণাবেক্ষণ করা তত কঠিন। ওভারফিটিং এবং আন্ডারফিটিং এর বাইরে, আপনার মডেলটি অদৃশ্য হয়ে যাওয়া বা বিস্ফোরিত গ্রেডিয়েন্ট, মোডের পতন, ক্ষতির স্পাইক, বিপর্যয়কর ভুলে যাওয়া এবং হার্ডওয়্যার সীমাবদ্ধতার মতো সমস্যাগুলির মধ্য দিয়ে যেতে পারে।


আমরা ইতিমধ্যেই বিপর্যয়কর ভুলে যাওয়া নিয়ে আলোচনা করেছি, যেটি ঘটে যখন একটি মডেল একটি নতুন ধরনের টাস্ক প্রবর্তনের পরে একটি পূর্ববর্তী টাস্কে খারাপ করে। অদৃশ্য হওয়া বা বিস্ফোরিত গ্রেডিয়েন্টগুলি গভীর নিউরাল নেটওয়ার্কের প্রশিক্ষণে সাধারণ সমস্যা, যেখানে গ্রেডিয়েন্টগুলি খুব ছোট বা খুব বড় হয়ে যায়, যার ফলে শেখার প্রক্রিয়াটি মন্থর বা অস্থিরতা দেখা দেয়। মোড পতন জেনারেটিভ মডেলগুলিতে ঘটে এবং ঘটে যখন মডেলটি বিভিন্ন ইনপুট থাকা সত্ত্বেও একই আউটপুট তৈরি করে। লস স্পাইক মডেল থেকে ক্রমবর্ধমান দুর্বল ভবিষ্যদ্বাণী উল্লেখ করে। এবং অবশেষে, LLM-এর সাথে কাজ করা হার্ডওয়্যারের জন্য চ্যালেঞ্জিং হতে পারে এবং এর ফলে ব্যর্থতা হতে পারে।


আপনি প্রস্তুত করতে পারেন বা অন্ততপক্ষে, অস্থিরতা প্রশমিত করতে পারেন এমন বিভিন্ন উপায় রয়েছে। এগুলি যুগান্তকারী নয়, তবে সাধারণ অনুশীলন যা আপনি বিভিন্ন গভীর শিক্ষার অ্যাপ্লিকেশনগুলিতেও দেখতে পারেন:


ব্যাচের আকার - সাধারণত আপনার GPU মেমরির সাথে মানানসই সবচেয়ে বড় ব্যাচের আকার ব্যবহার করার পরামর্শ দেওয়া হয়। বৃহত্তর ব্যাচের মাপ গণনীয় দক্ষতা, মেমরি ব্যবহার এবং সম্ভাব্য আরও সঠিক গ্রেডিয়েন্ট অনুমানের ক্ষেত্রে সুবিধা প্রদান করে। তারা GPU গুলির সমান্তরাল প্রক্রিয়াকরণ ক্ষমতাগুলি আরও ভালভাবে ব্যবহার করতে পারে, যার ফলে দ্রুত প্রশিক্ষণের সময় হয়।


নিয়মিতকরণের কৌশলগুলি ব্যবহার করুন — নিয়মিতকরণের কৌশলগুলি যেমন ড্রপআউট এবং ওজন ক্ষয় অতিরিক্ত ফিটিং বা মডেলের অস্থিরতা প্রতিরোধে সাহায্য করতে পারে।


ব্যাচ স্বাভাবিকীকরণ — ব্যাচ স্বাভাবিকীকরণ অভ্যন্তরীণ কোভেরিয়েট শিফট কমাতে সাহায্য করতে পারে, যা প্রশিক্ষণের সময় দ্রুত এবং আরও স্থিতিশীল একত্রিত হওয়ার অনুমতি দেয়। নেটওয়ার্কের মাধ্যমে গ্রেডিয়েন্টগুলি আরও মসৃণভাবে প্রবাহিত হয় তা নিশ্চিত করে এটি অদৃশ্য হয়ে যাওয়া গ্রেডিয়েন্ট সমস্যা দূর করতেও সাহায্য করে।


সঠিক ওজন প্রারম্ভিকতা নির্বাচন করা — ওজন প্রারম্ভিকতা প্রশিক্ষণের অস্থিরতা প্রশমিত করতে এবং কার্যকর শিক্ষা নিশ্চিত করতে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। ওজন শুরু করার একটি সাধারণ পদ্ধতি হল ছোট গাউসিয়ান শব্দ ব্যবহার করা। এর মধ্যে শূন্যের গড় এবং একটি ছোট স্ট্যান্ডার্ড বিচ্যুতি সহ গাউসিয়ান ডিস্ট্রিবিউশন থেকে এলোমেলোভাবে ওজন শুরু করা জড়িত। এলোমেলো শব্দ যোগ করে, ওজনগুলিকে প্রাথমিক বৈচিত্র্য দেওয়া হয়, যা মডেলটিকে প্রশিক্ষণের সময় বিভিন্ন সমাধান অন্বেষণ করতে সক্ষম করে।


ডেটা অগমেন্টেশন — যদি আপনার মডেলটি সাধারণীকরণের জন্য লড়াই করে এবং অতিরিক্ত ফিটিং প্রবণ হয়, তবে ডেটা পরিবর্ধন প্রশিক্ষণের ডেটার বিভিন্নতা প্রবর্তন করে এবং মডেলের দৃঢ়তা উন্নত করে এটি প্রশমিত করতে সহায়তা করতে পারে।


শেখার হার নির্ধারণ — আপনার ক্ষতি কমাতে এবং যতটা সম্ভব মডেলের স্থিতিশীলতা বজায় রাখতে সময়ের সাথে সাথে আপনার শেখার হার ধীরে ধীরে হ্রাস করুন। আপনি ধাপ ক্ষয় বা সূচকীয় ক্ষয় ব্যবহার করতে পারেন। ধাপ ক্ষয় হল যখন আপনি নিয়মিত ব্যবধানে একটি ফ্যাক্টর দ্বারা শেখার হার হ্রাস করেন, যখন সূচকীয় ক্ষয় তাত্ক্ষণিকভাবে শেখার হার হ্রাস করে।

উপসংহার

যেহেতু ব্যবসাগুলি LLM-এর প্রভাবগুলি উপলব্ধি করতে থাকে, এটি কেবলমাত্র বোধগম্য হয় যে কোম্পানিগুলি জিজ্ঞাসা করা শুরু করে যে এই মূল্যবান সরঞ্জামটি ব্যবহার করার সর্বোত্তম উপায় কী। সঠিক এলএলএম বেছে নেওয়া এবং আপনার কোম্পানির প্রয়োজন অনুসারে এটিকে ফাইন-টিউন করা সহজ বিকল্প হতে পারে। যাইহোক, এটি এখনও কার্যকরভাবে এবং সম্ভাব্য সবচেয়ে কার্যকর উপায়ে মডেলটিকে সূক্ষ্ম-টিউন করার জন্য বিভিন্ন বিবেচনার সাথে জড়িত থাকবে।


প্রথমত, সেরা সূচনা বিন্দু বেছে নিতে আপনার দলকে অবশ্যই বিভিন্ন ধরনের এলএলএম সঠিকভাবে মূল্যায়ন করতে হবে। তারা মডেল সঙ্গে পরীক্ষা সঙ্গে আরামদায়ক হওয়া উচিত. দক্ষ হওয়ার জন্য, তাদের উচ্চ-মানের ডেটা এবং সর্বোত্তম অনুশীলনের প্রয়োজন হয় কারণ তারা একটি LLM তৈরি বা সূক্ষ্ম-টিউন করার জন্য একটি কৌশল তৈরি করে।


এটি একটি জটিল এবং উচ্চাভিলাষী প্রজেক্ট যেভাবেই হোক আপনি বেছে নিন, কিন্তু আমরা ইতিমধ্যে দেখেছি, এলএলএম-এর মূল্য আনতে চিত্তাকর্ষক সম্ভাবনা রয়েছে।

তথ্যসূত্র:

[১] আইবিএম, সিইওরা জেনারেটিভ এআইকে আলিঙ্গন করে কারণ উৎপাদনশীলতা তাদের এজেন্ডাগুলির শীর্ষে (2023), আইবিএম নিউজরুম

[২] T. Eloundou, S. Manning, P. Mishkin, D. Rock, GPT হল GPTs: An Arly look at the Labour Market Impact Potential of Large Language Models (2023), arXiv:2303.10130v4 [econ.GN]

[৩] ম্যাককিনসে অ্যান্ড কোম্পানি, জেনারেটিভ এআইয়ের অর্থনৈতিক সম্ভাবনা: পরবর্তী উত্পাদনশীলতা সীমান্ত (2023), ম্যাককিনসে ডিজিটাল ইনসাইটস

[৪] C. Li, Demystifying GPT-3 (2023), Lambda Labs Blog

[৫] জে. ল্যাংস্টন, মাইক্রোসফ্ট নতুন সুপারকম্পিউটার ঘোষণা করেছে, ভবিষ্যতের AI কাজের (2020), মাইক্রোসফ্ট নিউজ সোর্স বৈশিষ্ট্য উদ্ভাবনের জন্য দৃষ্টিভঙ্গি তৈরি করেছে

[৬] জে. শেখ, দ্য চ্যাটজিপিটি অফ ফাইন্যান্স এখানে: ব্লুমবার্গ এআই এবং ফিনটেককে একত্রিত করছে (2023), Forbes.com

[৭] E. d'Archimbaud, আপনার নির্দিষ্ট প্রয়োজনের সাথে মানানসই একটি ফাউন্ডেশন মডেলকে মানিয়ে নেওয়ার 3 উপায় (2023), কিলি প্রযুক্তি।

[৮] এম. হেইকিলা, কিভাবে ওপেনএআই চ্যাটজিপিটিকে নিরাপদ এবং কম পক্ষপাতদুষ্ট করার চেষ্টা করছে (2023), এমআইটি প্রযুক্তি পর্যালোচনা।

[৯] কে. সিংগাল, টি. তু, জে. গোটওয়েস, আর. সাইরেস, ই. উলকজিন, এল. হাউ, কে. ক্লার্ক, এস. ফোহল, এইচ. কোল-লুইস, ডি. নিল, এম. শেকারম্যান, এ. ওয়াং, এম. আমিন, এস. লাচগার, পি. ম্যানসফিল্ড, এস. প্রকাশ, বি. গ্রীন, ই. ডমিনোস্কা, বি. আগুয়েরা ওয়াই আর্কাস, এন. তোমাসেভ, ওয়াই লিউ, আর. ওং, সি. সেমতুরস, এস সারা মাহদাভি, জে. বারাল, ডি. ওয়েবস্টার, জিএস কোরাডো, ওয়াই. মাতিয়াস, এস. আজিজি, এ. কার্তিকেসালিঙ্গ্যামি, এবং ভি. নটরাজানি, বড় ভাষার মডেলের সাথে বিশেষজ্ঞ-স্তরের মেডিকেল প্রশ্নের উত্তরের দিকে (2023), arXiv:23095. v1 [cs.CL] ১৬ মে ২০২৩।

[১০] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, G. Mann, BloombergGPT: A Large Language Model for Finance (2023) , arXiv:2303.17564v2 [cs.LG]

[১১] জে. হফম্যান, এস. বোরগেউড, এ. মেনশ, ই. বুচাটস্কায়া, টি. কাই, ই. রাদারফোর্ড, ডি. ডি লাস কাসাস, এলএ হেনড্রিকস, জে. ওয়েলব্ল, এ. ক্লার্ক, টি. হেনিগান, ই. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, JW Rae, O. Vinyals, L. Sifre, Training Compute-Optimal Large Language Models (2023), arXiv:2203.15556v1 [cs.CL]

[১২] এ. পাই, স্ক্র্যাচ (২০২৩), অ্যানালিটিক্স বিদ্যা থেকে আপনার নিজের বড় ভাষার মডেল তৈরি করার জন্য বিগিনারস গাইড।

[১৩] ওজন এবং পক্ষপাত, কিভাবে স্ক্র্যাচ থেকে এলএলএম প্রশিক্ষণ দেওয়া যায় (2023), ওজন এবং পক্ষপাতের শ্বেতপত্র।