কৃত্রিম বুদ্ধিমত্তা যেভাবে ধীরে ধীরে মানুষের ভাষাকে বৈচিত্র্যহীন করে তুলছে
২৮ মার্চ, ২০২৬

জেনারেটিভ কৃত্রিম বুদ্ধিমত্তা নিয়ে প্রচলিত ধারণাটি হলো, এটি মানুষের মধ্যে অসীম সংযোগ স্থাপন করবে। ভোক্তা এবং প্রযুক্তিবিদরা এমন এক ভবিষ্যতের স্বপ্ন দেখছেন, যেখানে নিখুঁত ও তাৎক্ষণিক অনুবাদ সব সীমানা ভেঙে দেবে। এর ফলে টোকিওর একজন ব্যবসায়ী বুয়েনস আইরেসের একজন ক্রেতার সঙ্গে অনায়াসে দর কষাকষি করতে পারবেন। এটা সহজেই ধরে নেওয়া যায় যে, এই অত্যাধুনিক অ্যালগরিদমগুলো বিশ্বজুড়ে যোগাযোগের চূড়ান্ত রক্ষাকবচ হিসেবে কাজ করবে এবং ভাষার ঐতিহাসিক বাধাগুলো ভেঙে দেবে। কিন্তু এই প্রযুক্তিগত অলৌকিকতার আড়ালে একটি গভীর এবং স্ববিরোধী হুমকি লুকিয়ে আছে। কৃত্রিম বুদ্ধিমত্তার ব্যাপক ব্যবহার মানুষের মত প্রকাশের বিশাল বৈচিত্র্যকে রক্ষা করার পরিবর্তে, নীরবে তাকে একটি নির্দিষ্ট ছাঁচে ফেলছে। এটি সংখ্যালঘু ভাষা এবং আঞ্চলিক উপভাষাগুলোকে ডিজিটাল বিশ্ব থেকে বিলুপ্তির দিকে ঠেলে দিচ্ছে।
মেশিন লার্নিং-এর কার্যকারিতা সম্পূর্ণভাবে নির্ভর করে এতে দেওয়া ডেটার ওপর। আর ডিজিটাল জগৎ এক্ষেত্রে মারাত্মকভাবে ভারসাম্যহীন। বিশ্বে সাত হাজারেরও বেশি কথ্য ভাষা থাকলেও, ইন্টারনেটে তার সামান্য একটি অংশই প্রভাবশালী। স্ট্যানফোর্ড ইনস্টিটিউট ফর হিউম্যান-সেন্টার্ড আর্টিফিশিয়াল ইন্টেলিজেন্স-এর মতো প্রতিষ্ঠানের গবেষণা বারবার দেখিয়েছে যে, বৃহৎ ভাষার মডেলগুলোকে মূলত আদর্শ আমেরিকান ইংরেজিতে প্রশিক্ষণ দেওয়া হয়। গবেষকরা যখন আঞ্চলিক উপভাষা বোঝা বা তৈরি করার ক্ষেত্রে এই মডেলগুলোর সক্ষমতা পরীক্ষা করেছেন, তখন ফলাফলে একটি পদ্ধতিগত ভাষাগত বিলুপ্তির চিত্র উঠে এসেছে। এই সিস্টেমগুলো প্রায়শই আফ্রিকান আমেরিকান ভার্নাকুলার ইংলিশ বা গ্রামীণ অ্যাপালাচিয়ান অঞ্চলের ভাষার মতো উপভাষাগুলোকে ভুলভাবে ব্যাখ্যা করে। অথবা এগুলো লেখাকে জোর করে একটি সাদামাটা, কর্পোরেট মানে পরিবর্তন করে দেয়।
একইভাবে, বিশ্বব্যাপী প্রযুক্তির ব্যবহার লক্ষ করলে দেখা যায়, যেসব ভাষার বিশাল ডিজিটাল আর্কাইভ নেই, তারা কৃত্রিম বুদ্ধিমত্তার এই বিপ্লব থেকে কার্যত বাদ পড়ছে। বিশ্বের ভাষাতাত্ত্বিক সংস্থাগুলোর ডেটা বিশ্লেষণ করে দেখা গেছে, আফ্রিকা বা দক্ষিণ-পূর্ব এশিয়ার কিছু ভাষার মতো লক্ষ লক্ষ মানুষের ভাষাকেও অ্যালগরিদম ডেভেলপাররা 'স্বল্প-সম্পদ' হিসেবে গণ্য করে। মডেলগুলোকে কার্যকরভাবে প্রশিক্ষণ দেওয়ার জন্য পর্যাপ্ত ডিজিটাল টেক্সট না থাকায়, অ্যালগরিদমগুলো এই ভাষাগুলোর জটিলতা বুঝতে ব্যর্থ হয়। এর ফলে, এই ভাষার ব্যবহারকারীরা আধুনিক ডিজিটাল অর্থনীতিতে অংশ নিতে ইংরেজি বা অন্য কোনো প্রভাবশালী ভাষা ব্যবহার করতে বাধ্য হন।
ভাষার এই বৈচিত্র্যহীন হয়ে যাওয়ার পেছনের কারণ কোনো খারাপ উদ্দেশ্য নয়, বরং গাণিতিক অপটিমাইজেশন। বৃহৎ ভাষার মডেলগুলো ইন্টারনেট থেকে সংগ্রহ করা কোটি কোটি প্যারামিটারের ওপর ভিত্তি করে পরিসংখ্যানগতভাবে সবচেয়ে সম্ভাব্য পরবর্তী শব্দটি অনুমান করে কাজ করে। যেহেতু ইন্টারনেট মূলত আদর্শ ইংরেজি ভাষায় পরিপূর্ণ, তাই অ্যালগরিদমগুলো স্বাভাবিকভাবেই এর বাক্য গঠন, শব্দভান্ডার এবং সাংস্কৃতিক বাগধারাকে প্রাধান্য দেয়। পরিশীলন পর্যায়ে, মানুষের মতামত মডেলগুলোকে এমন উত্তর তৈরি করতে প্রশিক্ষণ দেয় যা ভদ্র, পেশাদার এবং সর্বজনীনভাবে বোধগম্য বলে বিবেচিত হয়। এর ফলে, সিস্টেমগুলো ভাষাগত ভিন্নতা, কথ্য শব্দ এবং সাংস্কৃতিক সূক্ষ্মতাগুলোকে বাতিল করে দেয়, যা প্রতিষ্ঠিত পরিসংখ্যানগত নিয়মের সঙ্গে মেলে না।
একটি ব্যাকরণগত ভুল আর একটি ঐতিহ্যবাহী আঞ্চলিক উপভাষার মধ্যে অ্যালগরিদম কোনো পার্থক্য করতে পারে না। এটি কেবল প্রভাবশালী ডেটাসেট থেকে বিচ্যুতি শনাক্ত করে এবং সেটিকে মসৃণ করে দেয়। সময়ের সঙ্গে সঙ্গে, এই পরিসংখ্যানগত মসৃণকরণের ফলে একটি একঘেয়ে ভাষারীতি তৈরি হয়, যেখানে কোনো আঞ্চলিক ছোঁয়া, আবেগীয় গভীরতা বা সাংস্কৃতিক স্বকীয়তা থাকে না। এটি একটি অ্যালগরিদমিক মধ্যপন্থা, যা এমনভাবে ডিজাইন করা হয়েছে যাতে কেউ অসন্তুষ্ট না হয় এবং সবাই বুঝতে পারে। কিন্তু এই প্রক্রিয়ায়, এটি মানুষের আসল যোগাযোগের সমৃদ্ধিকে বিসর্জন দেয়।
এই অ্যালগরিদমিক মসৃণকরণের ফলাফল কেবল ভাষাতত্ত্বের আলোচনার মধ্যেই সীমাবদ্ধ নয়। লক্ষ লক্ষ মানুষ যখন তাদের দৈনন্দিন জীবনে জেনারেটিভ টেক্সট টুল, স্বয়ংক্রিয় ইমেল রেসপন্ডার এবং প্রিডিকটিভ টাইপিং ব্যবহার করছে, তখন মানুষের লেখার ধরনও বদলাতে শুরু করেছে। ভাষা মানুষের চিন্তাভাবনাকে আকার দেয়। আর আমরা যোগাযোগের জন্য যে টুলগুলো ব্যবহার করি, সেগুলো যখন ক্রমাগত আমাদের একটি একঘেয়ে, অ্যালগরিদমিক ভাষার দিকে ঠেলে দেয়, তখন আমরা ধীরে ধীরে আমাদের নিজস্ব প্রকাশভঙ্গি হারিয়ে ফেলি। মানুষ অবচেতনভাবেই নিজেদের শব্দভান্ডার পরিবর্তন করে যাতে মেশিন তাদের কথা বুঝতে পারে। অথবা তারা এমন বার্তা তৈরির জন্য মেশিনের ওপর নির্ভর করে, যেগুলোতে স্বাভাবিকভাবেই ব্যক্তিগত বা সাংস্কৃতিক ছোঁয়া থাকে না।
বৃহত্তর পরিসরে, প্রান্তিক সংস্কৃতিগুলোর জন্য এর প্রভাব আরও মারাত্মক। যখন কৃত্রিম বুদ্ধিমত্তা ব্যবস্থাগুলো স্বয়ংক্রিয় গ্রাহক পরিষেবা, সিভি যাচাই থেকে শুরু করে আইনি দলিল পর্যন্ত সবকিছু নিয়ন্ত্রণ করতে শুরু করে, তখন অপ্রচলিত উপভাষায় কথা বলা ব্যক্তিরা একটি সুস্পষ্ট অসুবিধার সম্মুখীন হন। স্বয়ংক্রিয় যাচাই ব্যবস্থায় তাদের প্রকাশভঙ্গিকে 'অপেশাদার' বা 'অস্পষ্ট' হিসেবে চিহ্নিত করা হয়। এর ফলে, কোডিং-এর অদৃশ্য লাইনের মাধ্যমে বিদ্যমান সামাজিক বৈষম্য আরও শক্তিশালী হয়। তাছাড়া, যেসব ভাষা ইতিমধ্যেই ঝুঁকিপূর্ণ, আধুনিক ডিজিটাল পরিকাঠামোর সঙ্গে যোগাযোগের অক্ষমতা তাদের পতনকে আরও ত্বরান্বিত করে। যদি তরুণ প্রজন্ম তাদের স্মার্টফোন বা ডিজিটাল অ্যাসিস্ট্যান্টে নিজেদের মাতৃভাষা ব্যবহার করতে না পারে, তাহলে সেই ভাষা শেখা এবং সংরক্ষণ করার উৎসাহ দ্রুত কমে যায়।
এই প্রযুক্তিগত বিলুপ্তি রোধ করতে হলে, কৃত্রিম বুদ্ধিমত্তা নির্মাণ এবং তার অর্থায়নের পদ্ধতিতে একটি সুচিন্তিত পরিবর্তন আনা প্রয়োজন। এর সমাধান শুধু বিশাল প্রযুক্তি সংস্থাগুলোর ওপর ছেড়ে দেওয়া যায় না, যাদের মূল উদ্দেশ্য হলো দ্রুত এবং সস্তায় বিশ্বব্যাপী ব্যবহারযোগ্য পণ্য তৈরি করা। এর পরিবর্তে, স্থানীয় এবং সম্প্রদায়-ভিত্তিক ভাষার মডেল তৈরির জন্য একটি সমন্বিত প্রচেষ্টা চালাতে হবে। যেসব অঞ্চল ডিজিটাল বিলুপ্তির হুমকি തിരിച്ചিনেতে পেরেছে, সেখানে এই পদ্ধতি ইতিমধ্যেই দারুণ সম্ভাবনা দেখাচ্ছে।
উদাহরণস্বরূপ, আইসল্যান্ড সরকার ওপেন-সোর্স ডিজিটাল ল্যাঙ্গুয়েজ রিসোর্স তৈরিতে প্রচুর বিনিয়োগ করেছে, যাতে কৃত্রিম বুদ্ধিমত্তার যুগে আইসল্যান্ডীয় ভাষা ইংরেজির দ্বারা গ্রাস না হয়ে যায়। একইভাবে, নিউজিল্যান্ডে তৃণমূল স্তরের উদ্যোগে আদিবাসী সম্প্রদায়গুলো সক্রিয়ভাবে তাদের কথ্য ও লিখিত ডেটা সংগ্রহ করছে। তাদের লক্ষ্য এমন অ্যালগরিদম তৈরি করা, যা ইংরেজি কেন্দ্রিক দৃষ্টিভঙ্গি ছাড়াই মাওরি ভাষা বুঝতে পারবে। সরকার এবং বিশ্বব্যাপী প্রযুক্তি নিয়ন্ত্রকদের অবশ্যই এই স্থানীয় প্রচেষ্টাগুলোকে বাধ্যতামূলক করতে হবে এবং ভর্তুকি দিতে হবে। এর মাধ্যমে নিশ্চিত করতে হবে যে, অ্যালগরিদমগুলোকে বিভিন্ন ভাষাগত সম্প্রদায়ের মধ্য থেকে একেবারে ভিত্তি স্তর থেকে প্রশিক্ষণ দেওয়া হয়।
ভাষা কেবল তথ্য আদান-প্রদানের একটি সাধারণ মাধ্যম নয়। এটি মানব ইতিহাসের ধারক, যা কোনো নির্দিষ্ট জনগোষ্ঠীর বিশ্বদর্শন, রসবোধ এবং সম্মিলিত স্মৃতি বহন করে। সমাজ যখন তার লেখা, অনুবাদ এবং দৈনন্দিন যোগাযোগ ক্রমশ অ্যালগরিদমের হাতে তুলে দিচ্ছে, তখন আমাদের এই স্বচ্ছন্দ সুবিধার পেছনের গোপন মূল্যটি തിരിച്ചিনতে হবে। যদি আমরা কৃত্রিম বুদ্ধিমত্তাকে মানুষের অভিব্যক্তিকে একটিমাত্র নীরস ছাঁচে ফেলার সুযোগ দিই, তাহলে আমরা মানুষের চিন্তার এলোমেলো কিন্তু সুন্দর বৈচিত্র্যকে নীরব করে দেওয়ার ঝুঁকি নেব। প্রযুক্তির চূড়ান্ত প্রতিশ্রুতি হওয়া উচিত সমস্ত কণ্ঠস্বরকে তুলে ধরা, কেবল সেইগুলো নয়, যা একটি মেশিনের পক্ষে অনুমান করা সবচেয়ে সহজ।