- ওপেনএআই-এর উপর নির্ভরতা কমাতে মাইক্রোসফট ট্রান্সক্রিপশন, ভয়েস জেনারেশন এবং ইমেজ তৈরির জন্য তিনটি নিজস্ব এআই ফাউন্ডেশন মডেল চালু করেছে।
- MAI-Transcribe-1 ২৫টি ভাষা সমর্থন করে এবং এটি মাইক্রোসফটের বর্তমান অ্যাজুর ফাস্ট ট্রান্সক্রিপশন অফারিংয়ের চেয়ে প্রায় ২.৫ গুণ দ্রুত চলে।
- MAI-Voice-1 প্রায় এক সেকেন্ডে ৬০ সেকেন্ডের কাস্টমাইজযোগ্য অডিও তৈরি করতে পারে, অন্যদিকে MAI-Image-2 উন্নত মানের ছবি এবং ভিডিও তৈরির জন্য ব্যবহৃত হয়।
- এই মডেলগুলো মাইক্রোসফট ফাউন্ড্রি, এমএআই প্লেগ্রাউন্ড, টিমস এবং অ্যাজুর-এর সাথে সমন্বিত হয়, সাথে রয়েছে আকর্ষণীয় মূল্য নির্ধারণ এবং ২০২৭ সালের মধ্যে বৃহৎ ফ্রন্টিয়ার মডেল তৈরির একটি রোডম্যাপ।
মাইক্রোসফট স্পষ্ট পদক্ষেপ নিচ্ছে কৃত্রিম বুদ্ধিমত্তায় বৃহত্তর স্বায়ত্তশাসন ট্রান্সক্রিপশন, স্পিচ জেনারেশন এবং ইমেজ তৈরির লক্ষ্যে নিজস্ব তিনটি ভিত্তি মডেল চালু করার মাধ্যমে। এই পদক্ষেপটি ইঙ্গিত দেয় যে, কোম্পানিটি একটি আরও গভীর ও বহুমুখী এআই স্ট্যাক চায় যা সম্পূর্ণরূপে তাদের নিয়ন্ত্রণে থাকবে, যদিও তারা ওপেনএআই-এর সাথে একটি ঘনিষ্ঠ বাণিজ্যিক জোট বজায় রাখছে।
এই নতুন ব্যবস্থাগুলি, এর অধীনে বিকশিত হয়েছে মাইক্রোসফট এআই/এমএআই সুপার ইন্টেলিজেন্স দলগুলো সরাসরি সংযুক্ত হওয়ার জন্য ডিজাইন করা হয়েছে Teams এবং Azure এর মতো পণ্য পাশাপাশি অভ্যন্তরীণ পরীক্ষণ প্ল্যাটফর্মগুলোতেও। বাস্তবে, মাইক্রোসফট একটি দীর্ঘমেয়াদী কৌশলের ভিত্তি স্থাপন করছে যেখানে এর নিজস্ব মডেলগুলো দৈনন্দিন কাজের ক্রমবর্ধমান একটি অংশ পূরণ করে।, ওপেনএআই-এর মতো বাহ্যিক মডেলগুলোকে কেবল সেইসব ক্ষেত্রেই সংরক্ষিত রাখা, যেখানে সেগুলো সুস্পষ্ট ও স্বতন্ত্র মূল্য সংযোজন করে।
ট্রান্সক্রিপশন, ভয়েস এবং ইমেজের জন্য মাইক্রোসফট নির্মিত তিনটি ভিত্তি মডেল
এই লঞ্চটি তিনটি মূল মডেলকে কেন্দ্র করে আবর্তিত হচ্ছে: MAI-ট্রান্সক্রাইব-১ স্পিচ-টু-টেক্সট এর জন্য, MAI-ভয়েস-১ টেক্সট-টু-স্পিচ এবং এর জন্য MAI-ছবি-১ দৃশ্যমান সৃষ্টির জন্য। একত্রে এগুলো একটি অভ্যন্তরীণ ব্যবস্থার প্রথম ও অত্যন্ত দৃশ্যমান স্তর গঠন করে। মাল্টিমোডাল এআই স্ট্যাক যা মাইক্রোসফট ইকোসিস্টেমের মধ্যে টেক্সট, অডিও এবং ছবি পরিচালনা করতে পারে।
শুধুমাত্র বড়, সাধারণ-উদ্দেশ্যমূলক মডেলের উপর নির্ভর না করে, মাইক্রোসফট বাজি ধরছে কাজ-কেন্দ্রিক সিস্টেম যা আরও সস্তা এবং দ্রুততর সাধারণ এন্টারপ্রাইজ ব্যবহারের ক্ষেত্রে এই পদ্ধতিটি বিশেষভাবে প্রাসঙ্গিক, কারণ Copilot ব্যবহারকারীর সংখ্যা এবং Office, Teams ও Azure-এ AI-চালিত ফিচারের সংখ্যা ক্রমাগত বাড়ছে, যার ফলে খরচও অন্যথায় API ব্যবহারের সাথে প্রায় রৈখিকভাবে বৃদ্ধি পেত।
ফাউন্ডেশন মডেল এই ধরনের প্রোগ্রামগুলোকে বৃহৎ এবং বৈচিত্র্যময় ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়, যাতে পরবর্তীতে সেগুলোকে বিভিন্ন পরিস্থিতিতে অভিযোজিত করা যায়। এক্ষেত্রে, এর অর্থ হলো কল সেন্টার ট্রান্সক্রিপশন এবং মিটিং সারাংশ থেকে শুরু করে সিন্থেটিক ভয়েস, অ্যাক্সেসিবিলিটি টুল এবং স্বয়ংক্রিয় কন্টেন্ট তৈরির পাইপলাইন পর্যন্ত সবকিছুকে শক্তি জোগানো।
MAI-Transcribe-1: ২৫টি ভাষার জন্য দ্রুততর, বহুভাষিক স্পিচ-টু-টেক্সট।
MAI-Transcribe-1 হলো মাইক্রোসফটের নতুন স্পিচ-টু-টেক্সট ইঞ্জিন এবং এই কার্যক্রমের অন্যতম প্রধান অংশ। মডেলটি ট্রান্সক্রিপশন সমর্থন করে 25 বিভিন্ন ভাষা এবং অভ্যন্তরীণভাবে মোটামুটিভাবে এর মান নির্ধারণ করা হয়েছে কোম্পানির বিদ্যমান অ্যাজুর ফাস্ট ট্রান্সক্রিপশন অফারিংয়ের চেয়ে ২.৫ গুণ দ্রুততরযা এর বর্তমান পোর্টফোলিওতে একটি নির্দেশক বিন্দু হিসেবে কাজ করে আসছে।
এই কর্মক্ষমতার উন্নতিটি গুরুত্বপূর্ণ কারণ ট্রান্সক্রিপশনের কাজ লেটেন্সির প্রতি অত্যন্ত সংবেদনশীল।বিশেষ করে লাইভ ক্যাপশন, কাস্টমার সাপোর্ট বা হাইব্রিড মিটিং-এর মতো রিয়েল-টাইম পরিস্থিতিতে। এই বিস্তৃত ভাষা কভারেজ মাইক্রোসফটের বিশ্বব্যাপী বিস্তৃতির সাথেও সামঞ্জস্যপূর্ণ, যা বহুজাতিক গ্রাহকদের জন্য বিভিন্ন আঞ্চলিক টুলের মিশ্রণের পরিবর্তে একটি একক প্রদানকারীর উপর নির্ভর করে পরিষেবা মানসম্মত করা সহজ করে তোলে।
পণ্যের দৃষ্টিকোণ থেকে, মাইক্রোসফ্ট MAI-Transcribe-1-কে সরাসরি সংযুক্ত করার পরিকল্পনা করছে। মাইক্রোসফট টিম মিটিংয়ের ট্রান্সক্রিপ্ট এবং লাইভ ক্যাপশন পরিচালনা করার জন্য। সময়ের সাথে সাথে, আশা করা যায় যে এই একই ইঞ্জিন অন্যান্য প্রোডাক্টিভিটি টুলগুলোর ভেতরেও দেখা যাবে, যাতে ব্যবহারকারীরা ব্র্যান্ডিং পরিবর্তন লক্ষ্য না করেই উন্নত গতি এবং কম খরচ দেখতে পান।.
মূল্য নির্ধারণ করা হয়েছে আকর্ষণীয়ভাবে: MAI-Transcribe-1 এর দাম শুরু হয় প্রায় প্রক্রিয়াজাত অডিওর প্রতি ঘণ্টার জন্য $0.36এমন একটি পরিকল্পনা, যা গুগল এবং ওপেনএআই উভয়ের তুলনীয় প্রস্তাবকে ছাড়িয়ে যাওয়ার লক্ষ্যে তৈরি, এবং এটি মাইক্রোসফটের নিজস্ব ক্লাউড পরিকাঠামোতেই চলবে।
MAI-Voice-1: কাস্টম ভয়েস সহ অত্যন্ত দ্রুত টেক্সট-টু-স্পিচ
অডিও তৈরির দিক থেকে, MAI-ভয়েস-১ মাইক্রোসফটের নতুন মডেল হল টেক্সটকে স্পিচে রূপান্তর করাকোম্পানির মতে, এটি আনুমানিক উৎপাদন করতে পারে প্রায় এক সেকেন্ড প্রসেসিং সময়ে ৬০ সেকেন্ডের অডিওযা এমন সব ব্যবহারের ক্ষেত্রে একটি উল্লেখযোগ্য অগ্রগতি, যেখানে দ্রুত সাড়া দেওয়া অত্যন্ত গুরুত্বপূর্ণ।
নিছক গতির বাইরে, একটি মূল প্রতিশ্রুতি হলো সমর্থনের জন্য কাস্টম, ব্র্যান্ড-সমন্বিত কণ্ঠস্বরপ্রতিষ্ঠানগুলো তাদের পরিচয় বা নির্দিষ্ট ব্যবহারের ক্ষেত্র অনুযায়ী কণ্ঠস্বর নির্ধারণ করতে পারবে; যেমন—সাপোর্ট হটলাইন ও কনভারসেশনাল এজেন্ট থেকে শুরু করে প্রশিক্ষণ সামগ্রী, পডকাস্ট এবং অ্যাক্সেসিবিলিটি ফিচার পর্যন্ত। কৃত্রিম বাচনভঙ্গি আরও সাধারণ হয়ে ওঠায় এবং শ্রোতারা কণ্ঠস্বরের সুর ও স্পষ্টতা নিয়ে আরও বেশি খুঁতখুঁতে হওয়ায়, এই ধরনের নিয়ন্ত্রণ ক্রমশ গুরুত্বপূর্ণ হয়ে উঠছে।
মাইক্রোসফট MAI-Voice-1 কে সরাসরি লক্ষ্যবস্তু করছে ভয়েস-নির্ভর পণ্য নির্মাণকারী ডেভেলপার এবং প্রতিষ্ঠানসমূহকল সেন্টার, ইন-অ্যাপ অ্যাসিস্ট্যান্ট, ভাষা শেখার টুল, মিডিয়া প্ল্যাটফর্ম বা এমন যেকোনো পরিষেবা যার জন্য পরিবর্ধনযোগ্য বর্ণনার প্রয়োজন। মূল্য শুরু হচ্ছে প্রায় প্রতি দশ লক্ষ অক্ষরের জন্য ২২ ডলারমডেলটি অল্প এবং অনেক বেশি উভয় পরিমাণেই আর্থিকভাবে লাভজনক হওয়ার জন্য তৈরি করা হয়েছে।
অবকাঠামোগত দৃষ্টিকোণ থেকে, MAI-Voice-1 প্রদান করা হয় এর মাধ্যমে অ্যাজুর এপিআই, মাইক্রোসফট ফাউন্ড্রি এবং এমএআই প্লেগ্রাউন্ডএর ফলে টিমগুলো দ্রুত ভয়েস পরীক্ষা করতে পারে এবং পরিবেশ পরিবর্তন না করেই প্রোডাকশনে যেতে পারে। এর মূল উদ্দেশ্য হলো মাইক্রোসফটের স্ট্যাকের মধ্যে পরীক্ষা-নিরীক্ষা থেকে শুরু করে ডেপ্লয়মেন্ট পর্যন্ত সম্পূর্ণ প্রক্রিয়াটিকে সুবিন্যস্ত করা।
MAI-Image-2: মাইক্রোসফটের স্ট্যাকে সমন্বিত ছবি ও ভিডিও তৈরির ব্যবস্থা
তৃতীয় মডেল, MAI-ছবি-১, দৃষ্টি নিবদ্ধ কর টেক্সট প্রম্পট থেকে ছবি (এবং কিছু বর্ণনায়, ভিডিও) তৈরিযদিও কোম্পানিটি প্রতিটি প্রযুক্তিগত বিবরণ প্রকাশ করেনি, তবে তারা এই মডেলটিকে তাদের টেক্সট এবং অডিও সিস্টেমের একটি ভিজ্যুয়াল পরিপূরক হিসেবে উপস্থাপন করছে, যার লক্ষ্য হলো মার্কেটিং অ্যাসেট, পণ্যের ভিজ্যুয়াল, স্টোরিবোর্ড এবং অন্যান্য মিডিয়া তৈরির প্রক্রিয়াকে স্বয়ংক্রিয় করা।
মজার ব্যাপার হলো, MAI-Image-2 প্রথমে আরও নীরবে আবির্ভূত হয়েছিল এমএআই খেলার মাঠমার্চের মাঝামাঝি সময়ে মাইক্রোসফটের বড় মডেলের জন্য পরীক্ষামূলক পরিবেশ চালু করা হয়েছিল। বর্তমান ঘোষণাটি বৃহত্তর একটি অংশ হিসেবে এর ভূমিকাকে আনুষ্ঠানিক রূপ দেয়। ফাউন্ড্রি এবং অ্যাজুর এমন একটি ইকোসিস্টেম, যেখানে ব্যবসা প্রতিষ্ঠানগুলো এটিকে নিছক গবেষণামূলক ডেমো হিসেবে নয়, বরং একটি স্ট্যান্ডার্ড উপাদান হিসেবে ব্যবহার করতে পারে।
প্রতিযোগিতা করার জন্যই মূল্য নির্ধারণ করা হয়েছে: কোম্পানিটি প্রায় একটি প্রবেশ মূল্য উল্লেখ করেছে। টেক্সটের জন্য প্রতি দশ লক্ষ ইনপুট টোকেনে ৫ ডলার এবং কাছাকাছি তৈরি করা ছবিগুলির জন্য প্রতি দশ লক্ষ আউটপুট টোকেনে ৩৩ ডলারএই সংখ্যাগুলোকে প্রতিদ্বন্দ্বী প্রদানকারীদের অনুরূপ স্তরের সমান বা তার চেয়ে কম হিসেবে উপস্থাপন করা হয়েছে, এবং একই সাথে এগুলো মাইক্রোসফটের এন্টারপ্রাইজ সিকিউরিটি ও কমপ্লায়েন্স স্ট্যাকের সুবিধা ভোগ করে।
ব্যবহারের ক্ষেত্রগুলি হল স্বয়ংক্রিয় সৃজনশীল কর্মপ্রবাহ এবং ব্যক্তিগতকৃত মার্কেটিং ভিজ্যুয়াল থেকে শুরু করে প্রোডাক্ট ডিজাইনের জন্য দ্রুত প্রোটোটাইপিং পর্যন্ত। যেসব গ্রাহক ইতিমধ্যেই অ্যাজুর (Azure) ব্যবহারে অভ্যস্ত, তাদের জন্য মূল আকর্ষণ হলো এই যে, তারা কোনো অতিরিক্ত বহিরাগত বিক্রেতাকে যুক্ত না করেই ইমেজ জেনারেশন নিয়ে পরীক্ষা-নিরীক্ষা করতে পারেন।
Azure, Foundry, MAI Playground এবং Microsoft 365 জুড়ে ইন্টিগ্রেশন
এই লঞ্চের একটি উল্লেখযোগ্য দিক হলো নতুন মডেলগুলোকে কতটা নিবিড়ভাবে অন্তর্ভুক্ত করা হয়েছে। মাইক্রোসফটের বিদ্যমান ক্লাউড এবং প্রোডাক্টিভিটি প্ল্যাটফর্মতিনটি সিস্টেমই – MAI-Transcribe-1, MAI-Voice-1 এবং MAI-Image-2 – পর্যায়ক্রমে চালু করা হচ্ছে। মাইক্রোসফট ফাউন্ড্রিকোম্পানির ভিত্তি মডেলগুলো গ্রহণ ও সম্প্রসারণের পরিবেশ।
ডেভেলপাররা শুরু করতে পারেন এমএআই খেলার মাঠযেখানে একই মডেলগুলো আরও পরীক্ষামূলক একটি ইন্টারফেসে উপস্থাপন করা হয়েছে। এই ব্যবস্থাটির উদ্দেশ্য হলো, যেসব দল সঙ্গে সঙ্গে সম্পূর্ণ একীকরণে প্রতিশ্রুতিবদ্ধ না হয়ে ট্রান্সক্রিপশন, সিন্থেটিক ভয়েস বা ভিজ্যুয়াল জেনারেশনের মতো সক্ষমতাগুলো পরখ করে দেখতে চায়, তাদের জন্য বাধা কমানো।
পণ্যের দিক থেকে, মাইক্রোসফট ইতিমধ্যেই ইঙ্গিত দিচ্ছে মাইক্রোসফট টিম প্রাথমিক সুবিধাভোগী হিসেবে। MAI-Transcribe-1 সভার প্রতিলিপি এবং ক্যাপশন সরবরাহ করার জন্য প্রস্তুত, এবং MAI-Voice-1 ও MAI-Image-2 সময়ের সাথে সাথে বিভিন্ন মাধ্যমে প্রকাশিত হবে বলে আশা করা হচ্ছে। কোপাইলট এবং মাইক্রোসফট ৩৬৫ অভিজ্ঞতাযদিও শেষ ব্যবহারকারীরা মডেলের সুস্পষ্ট ব্র্যান্ডিং দেখতে নাও পেতে পারেন।
কোম্পানিগুলোর জন্য প্রতিশ্রুতিটি হলো একক, সুসংগত স্ট্যাক যেখানে ট্রান্সক্রিপশন, ভয়েস এবং ইমেজ অ্যাজুর-এ ল্যাঙ্গুয়েজ মডেল, ডেটা সার্ভিস এবং অ্যানালিটিক্স-এর পাশেই থাকে। একাধিক বাহ্যিক এআই প্রোভাইডারকে একত্রিত করার তুলনায় এটি কমপ্লায়েন্স, সিকিউরিটি রিভিউ এবং ভেন্ডর ম্যানেজমেন্টকে সহজ করে তুলতে পারে।
ওপেনএআই এবং গুগলের সাথে মূল্য নির্ধারণ কৌশল এবং প্রতিযোগিতা
প্রযুক্তিগত বৈশিষ্ট্যের পাশাপাশি, মাইক্রোসফট আরও অনেক কিছুর উপর জোর দিচ্ছে মূল্যের প্রতিযোগিতাকোম্পানিটি এই মডেলগুলোকে খোলাখুলিভাবে এমন বিকল্প হিসেবে উপস্থাপন করে, যা অন্যান্য কোম্পানির অনুরূপ পণ্যের সমকক্ষ হতে পারে বা তার চেয়ে কম দামে পাওয়া যেতে পারে। ওপেনএআই এবং গুগলবিশেষ করে দীর্ঘস্থায়ী ও অধিক পরিমাণে ব্যবহারের জন্য।
প্রকাশিত মূল্যস্তর – প্রতি অডিও ঘন্টায় $০.৩৬ MAI-Transcribe-1 এর জন্য, প্রতি মিলিয়ন অক্ষরের জন্য ২২ ডলার MAI-Voice-1 এবং এর জন্য প্রতি মিলিয়ন টোকেনে $৫ / $৩৩ MAI-Image-2-এর কাঠামো – এগুলো শুধু প্রযুক্তিগত বিবরণ নয়। এগুলো একটি বৃহত্তর বার্তার অংশ, যার মাধ্যমে মাইক্রোসফট নিজেকে একজন হিসেবে তুলে ধরতে চায়। জেনারেটিভ এআই-এর সাশ্রয়ী ও সম্পূর্ণ পরিষেবা প্রদানকারী শুধুমাত্র অংশীদার মডেলগুলোর পুনঃবিক্রেতা হওয়ার পরিবর্তে।
এমন একটি বাজারে যেখানে আরও বেশি সংস্থা তাদের দৈনন্দিন কার্যক্রমে এআই অন্তর্ভুক্ত করছে, অনুরোধ প্রতি খরচ দ্রুত একটি কৌশলগত পরিবর্তনশীল বিষয় হয়ে উঠতে পারেনিজস্ব মডেল থাকার ফলে, মাইক্রোসফট বহিরাগত সরবরাহকারীদের বড় অঙ্কের অতিরিক্ত অর্থ প্রদানের পরিবর্তে কম্পিউটিং খরচ, মডেলের জটিলতা এবং ব্যবহারকারী-মূল্যের মধ্যেকার ভারসাম্যকে সূক্ষ্মভাবে সমন্বয় করতে পারে।
এর একটি সংকেত দেওয়ার প্রভাবও রয়েছে: নিজেদের বেঞ্চমার্ক এবং মূল্য তালিকা তুলে ধরার মাধ্যমে মাইক্রোসফট গ্রাহকদের কার্যত এই বার্তাই দিচ্ছে যে, যদি তারা ইতিমধ্যেই অ্যাজুর (Azure)-এর প্রতি প্রতিশ্রুতিবদ্ধ হয়ে থাকেন, তবে ট্রান্সক্রিপশন, স্পিচ এবং ইমেজের মতো মূল ওয়ার্কলোডগুলোর জন্য তাদের আর ডিফল্ট হিসেবে থার্ড-পার্টি মডেল ব্যবহার করার প্রয়োজন নেই।
মোস্তফা সুলেমান এবং "মানব-কেন্দ্রিক" এআই দৃষ্টি
তিনটি নতুন মডেল এমন দলগুলো থেকে এসেছে যাদেরকে দলবদ্ধ করা হয়েছে মাইক্রোসফট এআই/এমএআই সুপার ইন্টেলিজেন্স, দ্বারা চালিত মোস্তফা সুলেমানযিনি এখন মাইক্রোসফট এআই-এর প্রধান। এআই শিল্পে তার পূর্ববর্তী ভূমিকার জন্য পরিচিত সুলেমান, প্রকাশ্যে এমন একটি রূপকল্পের রূপরেখা তুলে ধরছেন, যাকে তিনি বর্ণনা করেন এভাবে “মানবতাবাদী এআই” অথবা মানব-কেন্দ্রিক কৃত্রিম বুদ্ধিমত্তা।
লঞ্চ উপলক্ষে মাইক্রোসফটের বিবৃতিতে সুলেমান জোর দিয়ে বলেন যে, এই মডেলগুলো এমনভাবে ডিজাইন করা হয়েছে যাতে মানুষ আসলে কীভাবে যোগাযোগ করে তা প্রতিফলিত করেঅগ্রাধিকার দেওয়া ব্যবহারিক উপযোগিতা এবং নিরাপত্তাতার মতে, লক্ষ্য হলো এমন সিস্টেম তৈরি করা যা বিমূর্ত গবেষণা প্রকল্পের চেয়ে কর্মক্ষেত্রে ও বাড়িতে দৈনন্দিন কাজের ধারার সাথে সহজে খাপ খায় এমন টুল হিসেবে কাজ করবে।
তিনি আরও পরামর্শ দিয়েছেন যে বর্তমান তিন মডেলের দলটি হলো এটি একটি বৃহত্তর পোর্টফোলিওর সূচনা মাত্রমাইক্রোসফট ফাউন্ড্রির মাধ্যমে এবং সরাসরি পণ্যের ভেতরে অতিরিক্ত ফাউন্ডেশন মডেল চালু করার পরিকল্পনা করছে, এবং পর্যায়ক্রমে স্পিচ ও ইমেজের বাইরে আরও বেশি মোডালিটি ও বিশেষায়িত কাজ অন্তর্ভুক্ত করার জন্য তাদের নিজস্ব সক্ষমতা প্রসারিত করছে।
এই রোডম্যাপটি মাইক্রোসফটের এই অভিপ্রায়কেই তুলে ধরে যে, তারা শুধু অন্যদের এআই-এর একটি প্ল্যাটফর্ম হিসেবেই নয়, বরং ওপেনএআই-এর মতো দীর্ঘদিনের অংশীদারদের পণ্যের পাশাপাশি নিজেদের উন্নত মডেল নির্মাতা হিসেবেও পরিচিত হতে চায়।
ওপেনএআই-এর সাথে একটি পুনর্নির্ধারিত সম্পর্ক এবং ২০২৭ সালের একটি অগ্রবর্তী মডেলের লক্ষ্য
এই কৌশলের সবচেয়ে সংবেদনশীল দিকগুলোর মধ্যে একটি হলো এর সাথে সম্পর্কিত ওপেনএআই-এর সাথে মাইক্রোসফটের বহুল আলোচিত অংশীদারিত্বকোম্পানিগুলো ঘনিষ্ঠভাবে যুক্ত রয়েছে: মাইক্রোসফট বিনিয়োগ করেছে 13 বিলিয়ন $ OpenAI তার মডেলগুলো Azure-এ হোস্ট করে এবং Copilot-এর মতো পণ্যগুলোতে GPT-এর মতো সিস্টেমগুলোকে একীভূত করে।
তবে সাম্প্রতিক প্রতিবেদনগুলো একটি দিকে ইঙ্গিত করছে সম্পর্কের পুনর্আলোচনা এটি মাইক্রোসফটকে সমান্তরালভাবে নিজস্ব এআই গবেষণা এবং পণ্য লাইন চালানোর জন্য আরও সুযোগ করে দেয়। সুলেমান এই পরিবর্তনকে একটি স্বাভাবিক বিবর্তন হিসেবে বর্ণনা করেছেন, কোনো বিচ্ছেদ হিসেবে নয় – বরং এটি এমন একটি পরিস্থিতির মতো যেখানে কোম্পানিটি বাইরের সরবরাহকারীদের কাছ থেকে পণ্য কেনার পাশাপাশি নিজেদের কিছু চিপও ডিজাইন করছে।
ব্লুমবার্গ ও অন্যান্য সংবাদমাধ্যমের মতে, মাইক্রোসফটের লক্ষ্য হলো ২০২৭ সাল নাগাদ এর নিজস্ব বৃহৎ আকারের, অত্যাধুনিক মডেলগুলো চালু হয়ে যাবে।নতুন ঘোষিত সিস্টেমগুলো সেই উচ্চাকাঙ্ক্ষার কিছুটা আগে অবস্থান করছে: এগুলোকে এখনও সাধারণ-উদ্দেশ্যমূলক, অত্যাধুনিক ভাষা মডেল হিসেবে স্থাপন করা হয়নি, বরং বিশেষায়িত উপাদান যা দৈনন্দিন কাজের জন্য পার্টনার এপিআই-এর উপর নির্ভরতা কমায়.
কার্যত, এর অর্থ হলো মাইক্রোসফট যেখানে প্রয়োজন সেখানে GPT-5.4-এর মতো OpenAI মডেল ব্যবহার করা চালিয়ে যেতে পারে, এবং ধীরে ধীরে এর নিজস্ব মডেলগুলি অদলবদল করা যেখানে ব্যয়-কার্যকারিতার অনুপাত বা কৌশলগত বিবেচনা অভ্যন্তরীণ প্রযুক্তির অনুকূলে থাকে। ব্যবহারকারীরা হয়তো সহজেই লক্ষ্য করবেন যে, নেপথ্যে এই পরিবর্তনগুলো ঘটার ফলে ফিচারগুলো আরও দ্রুত বা সস্তা হয়ে উঠছে।
বৃহত্তর এআই বাজারের জন্য, এই দ্বৈত গতিপথ একটি স্পষ্ট প্রবণতাকে তুলে ধরে: বড় প্রযুক্তি সংস্থাগুলো খুঁজছে একটি সহযোগিতা ও আত্মনির্ভরশীলতার মধ্যে ভারসাম্যদ্রুত এগিয়ে যাওয়ার জন্য জোট ব্যবহার করা, কিন্তু দীর্ঘমেয়াদে কোনো একক সরবরাহকারীর ওপর নির্ভরশীলতা এড়াতে নিজেদের সক্ষমতা গড়ে তোলা।
এই তিনটি মডেলের মাধ্যমে মাইক্রোসফট কার্যকরভাবে একটি অবস্থান স্পষ্ট করছে: তারা এআই স্ট্যাকের বিভিন্ন স্তরে—অবকাঠামো ও টুলিং থেকে শুরু করে একেবারে মৌলিক মডেলগুলো পর্যন্ত—প্রতিযোগিতা করতে চায়, এবং একই সাথে ওপেনএআই-এর মতো অংশীদারদের জন্যও জায়গা রাখতে চায়, যেখানে তারা তাদের অনন্য দক্ষতা নিয়ে আসে। গ্রাহকদের জন্য এর অর্থ হতে পারে আরও বেশি বিকল্প, আরও আকর্ষণীয় মূল্য এবং পরিচিত পণ্য ও পরিষেবাগুলোর ভিত্তি হিসেবে মাইক্রোসফট-ব্র্যান্ডের এআই ব্যবহারের দিকে একটি ক্রমান্বয় পরিবর্তন।

