বাড়ি > খবর > কমপ্যাক্ট এআইয়ের যুক্তি শক্তি: চ্যালেঞ্জিং জিপিটি?

কমপ্যাক্ট এআইয়ের যুক্তি শক্তি: চ্যালেঞ্জিং জিপিটি?

লেখক:Kristen আপডেট:May 02,2025

সাম্প্রতিক বছরগুলিতে, এআই সম্প্রদায় বৃহত্তর ভাষার মডেলগুলির (এলএলএম) অসাধারণ কৃতিত্বের দ্বারা মুগ্ধ হয়েছে। মূলত প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণের জন্য তৈরি করা, এই মডেলগুলি মানব যুক্তির মতো ধাপে ধাপে চিন্তাভাবনা প্রক্রিয়া দিয়ে জটিল সমস্যাগুলি সমাধান করতে সক্ষম পরিশীলিত যুক্তিযুক্ত সরঞ্জামগুলিতে রূপান্তরিত হয়েছে। যাইহোক, তাদের উন্নত ক্ষমতা থাকা সত্ত্বেও, এলএলএমগুলিতে উচ্চ গণনার ব্যয় এবং ধীর স্থাপনার গতি সহ উল্লেখযোগ্য ত্রুটি রয়েছে, যা মোবাইল ডিভাইস বা এজ কম্পিউটিংয়ের মতো সংস্থান-সীমাবদ্ধ সেটিংসে রিয়েল-ওয়ার্ল্ড অ্যাপ্লিকেশনগুলির জন্য এগুলি কম সম্ভাব্য করে তোলে। এটি ছোট, আরও দক্ষ মডেলগুলির বিকাশে গভীর আগ্রহের সূত্রপাত করেছে যা ব্যয় এবং সংস্থানগুলির চাহিদা হ্রাস করার সময় তুলনামূলক যুক্তি দক্ষতা সরবরাহ করতে পারে। এই নিবন্ধটি এই ছোট যুক্তিযুক্ত মডেলগুলির উত্থান, তাদের সম্ভাবনা, চ্যালেঞ্জগুলি এবং এআই ল্যান্ডস্কেপের জন্য ভবিষ্যতের প্রভাবগুলি অন্বেষণ করে।

দৃষ্টিকোণে একটি পরিবর্তন

এআইয়ের সাম্প্রতিক ইতিহাসের একটি উল্লেখযোগ্য সময়ের জন্য, ক্ষেত্রটি "স্কেলিং আইন" এর নীতিটি মেনে চলেছে, যা পোস্ট করে যে মডেল পারফরম্যান্স ডেটা, গণনা শক্তি এবং মডেলের আকার বৃদ্ধি হিসাবে অনুমানযোগ্যভাবে উন্নত করে। যদিও এই পদ্ধতির প্রকৃতপক্ষে শক্তিশালী মডেলগুলি তৈরি করা হয়েছে, এটি উচ্চতর অবকাঠামোগত ব্যয়, পরিবেশগত প্রভাব এবং বিলম্বিত সমস্যাগুলির মতো যথেষ্ট বাণিজ্য-বন্ধের দিকে পরিচালিত করেছে। সমস্ত অ্যাপ্লিকেশন শত শত বিলিয়ন পরামিতি সহ বিশাল মডেলের সম্পূর্ণ ক্ষমতা প্রয়োজন। অনেক ব্যবহারিক পরিস্থিতিতে যেমন অন-ডিভাইস সহকারী, স্বাস্থ্যসেবা এবং শিক্ষা-ছোট মডেলগুলি তুলনামূলক ফলাফল অর্জন করতে পারে, তবে তারা কার্যকরভাবে যুক্তিযুক্ত হতে পারে।

এআই -তে যুক্তি বোঝা

এআই -তে যুক্তি যুক্তিতে যৌক্তিক ক্রমগুলি অনুসরণ করতে, কারণ এবং প্রভাব বোঝার, প্রভাবগুলি অনুমান করা, পদ্ধতিগত পদক্ষেপগুলি পরিকল্পনা করার এবং বৈপরীত্যগুলি সনাক্ত করার জন্য একটি মডেলের ক্ষমতা অন্তর্ভুক্ত করে। ভাষার মডেলগুলির জন্য, এর মধ্যে কেবল তথ্য পুনরুদ্ধার করা নয়, কাঠামোগত, ধাপে ধাপে পদ্ধতির মাধ্যমে ডেটা ম্যানিপুলেট করা এবং অনুমান করাও জড়িত। এই স্তরের যুক্তি অর্জনের জন্য সাধারণত উপসংহারে পৌঁছানোর আগে মাল্টি-স্টেপ যুক্তি সম্পাদন করতে সূক্ষ্ম-টিউনিং এলএলএম প্রয়োজন। কার্যকর থাকাকালীন, এই পদ্ধতিগুলি সম্পদ-নিবিড় এবং তাদের অ্যাক্সেসযোগ্যতা এবং পরিবেশগত প্রভাব সম্পর্কে উদ্বেগ উত্থাপন করে মোতায়েন করা ধীর এবং ব্যয়বহুল হতে পারে।

ছোট যুক্তিযুক্ত মডেলগুলি বোঝা

ছোট যুক্তিযুক্ত মডেলগুলি বৃহত মডেলগুলির যুক্তি সক্ষমতাগুলির প্রতিলিপি তৈরি করার লক্ষ্য রাখে তবে গণনামূলক শক্তি, মেমরি ব্যবহার এবং বিলম্বের দিক থেকে বৃহত্তর দক্ষতার সাথে। এই মডেলগুলি প্রায়শই জ্ঞান পাতন নামে পরিচিত একটি কৌশল ব্যবহার করে, যেখানে একটি ছোট মডেল ("শিক্ষার্থী") একটি বৃহত্তর, প্রাক-প্রশিক্ষিত মডেল ("শিক্ষক") থেকে শিখেছে। পাতন প্রক্রিয়াটিতে বৃহত্তর দ্বারা উত্পাদিত ডেটাতে আরও ছোট মডেলকে প্রশিক্ষণ দেওয়া জড়িত, যুক্তির ক্ষমতা স্থানান্তর করার লক্ষ্যে। ছাত্র মডেলটি তখন এর কার্যকারিতা বাড়ানোর জন্য সূক্ষ্ম সুরযুক্ত। কিছু ক্ষেত্রে, বিশেষায়িত ডোমেন-নির্দিষ্ট পুরষ্কার ফাংশনগুলির সাথে শক্তিবৃদ্ধি শেখার টাস্ক-নির্দিষ্ট যুক্তি সম্পাদন করার মডেলটির ক্ষমতা আরও পরিমার্জন করতে নিযুক্ত করা হয়।

ছোট যুক্তিযুক্ত মডেলগুলির উত্থান এবং অগ্রগতি

ছোট যুক্তিযুক্ত মডেলগুলির বিকাশের একটি গুরুত্বপূর্ণ মুহূর্তটি ডিপসেক-আর 1 প্রকাশের দ্বারা চিহ্নিত করা হয়েছিল। পুরানো জিপিইউগুলির তুলনামূলকভাবে পরিমিত ক্লাস্টারে প্রশিক্ষিত, ডিপসেক-আর 1 এমএমএলইউ এবং জিএসএম -8 কে-এর মতো বেঞ্চমার্কগুলিতে ওপেনএআই এর ও 1 এর মতো বৃহত্তর মডেলের সাথে তুলনীয় পারফরম্যান্স স্তর অর্জন করেছে। এই সাফল্যটি traditional তিহ্যবাহী স্কেলিং পদ্ধতির পুনর্নির্মাণকে উত্সাহিত করেছে, যা ধরে নিয়েছিল যে বৃহত্তর মডেলগুলি সহজাতভাবে উচ্চতর ছিল।

ডিপসেক-আর 1 এর সাফল্যকে তার উদ্ভাবনী প্রশিক্ষণ প্রক্রিয়া হিসাবে দায়ী করা যেতে পারে, যা প্রাথমিক পর্যায়ে তদারকি করা সূক্ষ্ম সুরের উপর নির্ভর না করে বৃহত আকারের শক্তিবৃদ্ধি শিক্ষার একত্রিত করে। এই উদ্ভাবনের ফলে ডিপসেক-আর 1-জিরো তৈরির দিকে পরিচালিত হয়েছিল, এটি এমন একটি মডেল যা বড় যুক্তিযুক্ত মডেলের তুলনায় চিত্তাকর্ষক যুক্তিযুক্ত ক্ষমতা প্রদর্শন করেছিল। শীতল-সূচনার ডেটা ব্যবহারের মতো আরও বর্ধনগুলি বিশেষত গণিত এবং কোডিংয়ের মতো ক্ষেত্রে মডেলটির সংহতি এবং কার্য সম্পাদনের উন্নতি করেছে।

অতিরিক্তভাবে, পাতন কৌশলগুলি বৃহত্তর থেকে আরও ছোট, আরও দক্ষ মডেলগুলি বিকাশে প্রমাণিত সহায়ক। উদাহরণস্বরূপ, ডিপসেক তার মডেলগুলির পাতন সংস্করণ প্রকাশ করেছে, আকারে 1.5 বিলিয়ন থেকে 70 বিলিয়ন পরামিতি। এই মডেলগুলি ব্যবহার করে, গবেষকরা একটি উল্লেখযোগ্যভাবে ছোট মডেল, ডিপসেক-আর 1-ডিস্টিল-কুইন -32 বি প্রশিক্ষণ দিয়েছেন, যা বিভিন্ন মানদণ্ড জুড়ে ওপেনাইয়ের ও 1-মিনিটকে ছাড়িয়ে গেছে। এই মডেলগুলি এখন স্ট্যান্ডার্ড হার্ডওয়্যারে মোতায়েনযোগ্য, এগুলি বিস্তৃত অ্যাপ্লিকেশনগুলির জন্য আরও কার্যকর বিকল্প হিসাবে তৈরি করে।

ছোট মডেলগুলি কি জিপিটি-স্তরের যুক্তির সাথে মেলে?

ছোট যুক্তিযুক্ত মডেলগুলি (এসআরএমএস) জিপিটি -র মতো বৃহত মডেলগুলির (এলআরএমএস) যুক্তি শক্তির সাথে মেলে কিনা তা নির্ধারণ করার জন্য, স্ট্যান্ডার্ড মানদণ্ডে তাদের কার্যকারিতা মূল্যায়নের জন্য এটি অত্যন্ত গুরুত্বপূর্ণ। উদাহরণস্বরূপ, ডিপসেক-আর 1 মডেল এমএমএলইউ পরীক্ষায় প্রায় 0.844 স্কোর করেছে, যেমন ও 1 এর মতো বৃহত্তর মডেলের সাথে তুলনীয়। জিএসএম -8 কে ডেটাসেটে, যা গ্রেড-স্কুল গণিতের উপর দৃষ্টি নিবদ্ধ করে, ডিপসেক-আর 1 এর ডিস্টিলড মডেলটি ও 1 এবং ও 1-মিনিট উভয়কেই ছাড়িয়ে শীর্ষ স্তরের পারফরম্যান্স অর্জন করেছে।

কোডিং কার্যগুলিতে, যেমন লাইভকোডবেঞ্চ এবং কোডফোর্সগুলিতে, ডিপসেক-আর 1 এর ডিস্টিলড মডেলগুলি প্রোগ্রামিংয়ে দৃ strong ় যুক্তিযুক্ত ক্ষমতা প্রদর্শন করে ও 1-মিনিট এবং জিপিটি -4o এর সাথে একইভাবে সম্পাদন করে। তবে, বৃহত্তর মডেলগুলির এখনও বিস্তৃত ভাষা বোঝার জন্য বা দীর্ঘ প্রসঙ্গের উইন্ডোগুলি পরিচালনা করার জন্য কার্যগুলিতে একটি সুবিধা রয়েছে, কারণ ছোট মডেলগুলি আরও বেশি কার্য-নির্দিষ্ট হতে থাকে।

তাদের শক্তি থাকা সত্ত্বেও, ছোট মডেলগুলি বর্ধিত যুক্তিযুক্ত কাজগুলির সাথে বা বিতরণের বাইরে থাকা ডেটার মুখোমুখি হওয়ার সাথে লড়াই করতে পারে। উদাহরণস্বরূপ, এলএলএম দাবা সিমুলেশনগুলিতে, ডিপসেক-আর 1 বৃহত্তর মডেলের চেয়ে বেশি ভুল করেছে, যা বর্ধিত সময়কালে ফোকাস এবং নির্ভুলতা বজায় রাখার ক্ষমতার সীমাবদ্ধতাগুলি নির্দেশ করে।

ট্রেড-অফস এবং ব্যবহারিক প্রভাব

জিপিটি-স্তরের এলআরএমএসের সাথে এসআরএমগুলির তুলনা করার সময় মডেল আকার এবং পারফরম্যান্সের মধ্যে বাণিজ্য-অফগুলি গুরুত্বপূর্ণ। ছোট মডেলগুলির জন্য কম মেমরি এবং গণনামূলক শক্তি প্রয়োজন, এগুলি এজ ডিভাইস, মোবাইল অ্যাপস বা এমন পরিস্থিতিতে যেখানে অফলাইন অনুমানের প্রয়োজন হয় তাদের জন্য আদর্শ করে তোলে। এই দক্ষতার ফলে কম অপারেশনাল ব্যয় হয়, ডিপসেক-আর 1 এর মতো মডেলগুলি ও 1 এর মতো বৃহত্তর মডেলের তুলনায় চালানোর জন্য 96% কম দামে।

যাইহোক, এই দক্ষতা লাভ কিছু আপস সঙ্গে আসে। ছোট মডেলগুলি সাধারণত নির্দিষ্ট কাজের জন্য সূক্ষ্ম সুরযুক্ত, যা বৃহত্তর মডেলের তুলনায় তাদের বহুমুখিতা সীমাবদ্ধ করতে পারে। উদাহরণস্বরূপ, ডিপসেক-আর 1 গণিত এবং কোডিংয়ে দক্ষতা অর্জন করার সময়, এতে মাল্টিমোডাল সক্ষমতা নেই, যেমন চিত্রগুলি ব্যাখ্যা করার ক্ষমতা, যা জিপিটি -4O এর মতো বৃহত্তর মডেলগুলি পরিচালনা করতে পারে।

এই সীমাবদ্ধতা সত্ত্বেও, ছোট যুক্তিযুক্ত মডেলগুলির ব্যবহারিক অ্যাপ্লিকেশনগুলি বিস্তৃত। স্বাস্থ্যসেবাতে, তারা ডায়াগনস্টিক সরঞ্জামগুলি শক্তি দিতে পারে যা স্ট্যান্ডার্ড হাসপাতালের সার্ভারগুলিতে মেডিকেল ডেটা বিশ্লেষণ করে। শিক্ষায়, এগুলি শিক্ষার্থীদের ধাপে ধাপে প্রতিক্রিয়া সরবরাহ করে ব্যক্তিগতকৃত টিউটরিং সিস্টেমগুলি বিকাশ করতে ব্যবহার করা যেতে পারে। বৈজ্ঞানিক গবেষণায়, তারা গণিত এবং পদার্থবিজ্ঞানের মতো ক্ষেত্রে ডেটা বিশ্লেষণ এবং হাইপোথিসিস পরীক্ষায় সহায়তা করতে পারে। ডিপসেক-আর 1 এর মতো মডেলগুলির মুক্ত-উত্স প্রকৃতি এছাড়াও সহযোগিতা উত্সাহিত করে এবং এআইয়ের অ্যাক্সেসকে গণতান্ত্রিক করে তোলে, ছোট সংস্থাগুলিকে উন্নত প্রযুক্তি থেকে উপকৃত করতে সক্ষম করে।

নীচের লাইন

ছোট যুক্তিযুক্ত মডেলগুলিতে ভাষা মডেলগুলির বিবর্তন এআই -তে একটি উল্লেখযোগ্য অগ্রগতির প্রতিনিধিত্ব করে। যদিও এই মডেলগুলি এখনও বৃহত্তর ভাষার মডেলগুলির বিস্তৃত দক্ষতার সাথে পুরোপুরি মেলে না, তবে তারা দক্ষতা, ব্যয়-কার্যকারিতা এবং অ্যাক্সেসযোগ্যতার মূল সুবিধাগুলি সরবরাহ করে। যুক্তি শক্তি এবং সংস্থান দক্ষতার মধ্যে ভারসাম্য বজায় রেখে, ছোট মডেলগুলি বিভিন্ন অ্যাপ্লিকেশন জুড়ে একটি গুরুত্বপূর্ণ ভূমিকা পালন করার জন্য প্রস্তুত, এআইকে বাস্তব-বিশ্বের ব্যবহারের জন্য আরও ব্যবহারিক এবং টেকসই করে তোলে।

শীর্ষ সংবাদ