आर्टिफिशियल इंटेलिजेंस कैसे धीरे-धीरे इंसानी भाषा को एक जैसा बना रहा है
28 मार्च 2026

जेनरेटिव आर्टिफिशियल इंटेलिजेंस के बारे में आम धारणा यह है कि यह दुनिया को जोड़ने का एक असीम साधन है। उपभोक्ता और टेक्नोलॉजी विशेषज्ञ, दोनों ही एक ऐसे भविष्य का जश्न मना रहे हैं, जहाँ आसान और तुरंत अनुवाद सीमाओं को खत्म कर देगा। इसकी मदद से टोक्यो का कोई व्यापारी ब्यूनस आयर्स के किसी खरीदार से बिना किसी रुकावट के बातचीत कर सकेगा। यह मान लेना आसान है कि ये आधुनिक एल्गोरिदम वैश्विक संचार के सबसे बड़े संरक्षक हैं, जो भाषा की ऐतिहासिक बाधाओं को तोड़ रहे हैं। लेकिन, इस तकनीकी चमत्कार की सतह के नीचे एक गहरा और विरोधाभासी खतरा छिपा है। आर्टिफिशियल इंटेलिजेंस का बड़े पैमाने पर इस्तेमाल इंसानी अभिव्यक्ति के विशाल दायरे को संरक्षित करने के बजाय, चुपचाप इसे एक मानक रूप दे रहा है। यह अल्पसंख्यक भाषाओं और क्षेत्रीय बोलियों को डिजिटल तौर पर खत्म होने की ओर धकेल रहा है।
मशीन लर्निंग का तरीका पूरी तरह से उन आंकड़ों पर निर्भर करता है जो उसे दिए जाते हैं, और डिजिटल दुनिया में यह बहुत असंतुलित है। दुनिया भर में सात हजार से ज्यादा भाषाएं बोली जाती हैं, लेकिन उनमें से कुछ ही इंटरनेट पर हावी हैं। स्टैनफोर्ड इंस्टीट्यूट फॉर ह्यूमन-सेंटर्ड आर्टिफिशियल इंटेलिजेंस जैसे संस्थानों के अध्ययनों ने लगातार यह बताया है कि बड़े भाषाई मॉडल (large language models) मुख्य रूप से मानक अमेरिकी अंग्रेजी पर प्रशिक्षित किए जाते हैं। जब शोधकर्ताओं ने इन प्रमुख मॉडलों का क्षेत्रीय बोलियों को समझने या बनाने की क्षमता पर परीक्षण किया, तो नतीजों ने एक व्यवस्थित भाषाई मिटाव का खुलासा किया। ये सिस्टम अक्सर अफ्रीकन अमेरिकन वर्नाक्युलर इंग्लिश या अपालाचियन ग्रामीण बोली जैसी बोलियों का गलत मतलब निकालते हैं, या वे आक्रामक रूप से टेक्स्ट को एक नीरस, कॉर्पोरेट मानक में बदल देते हैं।
इसी तरह, वैश्विक स्तर पर टेक्नोलॉजी को अपनाने पर एक व्यापक नजर डालें तो पता चलता है कि जिन भाषाओं के पास विशाल डिजिटल संग्रह नहीं हैं, वे प्रभावी रूप से आर्टिफिशियल इंटेलिजेंस क्रांति से बाहर हो गई हैं। वैश्विक भाषाई संस्थानों द्वारा विश्लेषण किए गए आंकड़ों से पता चलता है कि कुछ अफ्रीकी या दक्षिण-पूर्व एशियाई भाषाओं जैसी लाखों बोलने वालों वाली भाषाओं को भी एल्गोरिदम डेवलपर अक्सर 'कम-संसाधन' वाला मानते हैं। क्योंकि मॉडल को प्रभावी ढंग से प्रशिक्षित करने के लिए पर्याप्त डिजिटल टेक्स्ट उपलब्ध नहीं है, इसलिए एल्गोरिदम उनकी जटिलताओं को समझने में विफल रहते हैं। नतीजतन, इन भाषाओं के उपयोगकर्ताओं को आधुनिक डिजिटल अर्थव्यवस्था में भाग लेने के लिए अंग्रेजी या किसी अन्य प्रमुख भाषा का सहारा लेना पड़ता है।
इस भाषाई एकरूपता का मूल कारण कोई दुर्भावनापूर्ण इरादा नहीं, बल्कि गणितीय अनुकूलन (mathematical optimization) है। बड़े भाषाई मॉडल अरबों मापदंडों के आधार पर अगले सबसे सांख्यिकीय रूप से संभावित शब्द की भविष्यवाणी करके काम करते हैं। ये मापदंड इंटरनेट से इकट्ठा की गई जानकारी से लिए जाते हैं। चूँकि इंटरनेट पर मानक अंग्रेजी की भरमार है, इसलिए एल्गोरिदम स्वाभाविक रूप से इसके वाक्य-विन्यास, शब्दावली और सांस्कृतिक मुहावरों का पक्ष लेते हैं। सुधार के चरण के दौरान, इंसानों से मिली प्रतिक्रिया मॉडलों को ऐसे जवाब देने के लिए और प्रशिक्षित करती है जिन्हें विनम्र, पेशेवर और सार्वभौमिक रूप से समझने योग्य माना जाता है। नतीजतन, ये सिस्टम भाषाई विचलन, आम बोलचाल के शब्दों और सांस्कृतिक बारीकियों को दंडित करते हैं जो स्थापित सांख्यिकीय मानदंडों में फिट नहीं बैठते हैं।
एल्गोरिदम एक व्याकरण की गलती और एक गहरी सांस्कृतिक बोली के बीच अंतर नहीं कर सकता। यह केवल प्रमुख डेटासेट से एक विचलन की पहचान करता है और उसे ठीक कर देता है। समय के साथ, यह सांख्यिकीय सुधार (statistical smoothing) एक समरूप (homogenized) आवाज बनाता है जिसमें क्षेत्रीय स्वाद, भावनात्मक गहराई या सांस्कृतिक विशिष्टता की कमी होती है। यह एक एल्गोरिदम वाला मध्य मार्ग है जिसे इसलिए बनाया गया है कि कोई नाराज न हो और हर कोई समझ सके, लेकिन इस प्रक्रिया में यह प्रामाणिक मानवीय संचार की समृद्धि का त्याग कर देता है।
इस एल्गोरिदम वाले सुधार के परिणाम अकादमिक भाषा विज्ञान से कहीं आगे तक जाते हैं। जैसे-जैसे लाखों लोग जेनरेटिव टेक्स्ट टूल, स्वचालित ईमेल जवाब और प्रेडिक्टिव टाइपिंग को अपनी दिनचर्या में शामिल कर रहे हैं, इंसानों का लेखन भी बदलने लगा है। भाषा सोच को आकार देती है, और जब हम संवाद के लिए जिन उपकरणों का उपयोग करते हैं, वे हमें लगातार एक समरूप, एल्गोरिदम वाली भाषा की ओर धकेलते हैं, तो हम धीरे-धीरे अपनी अनूठी आवाज़ें छोड़ देते हैं। लोग अनजाने में अपनी शब्दावली बदल लेते हैं ताकि मशीन उन्हें समझ सके या वे ऐसे संदेश लिखने के लिए मशीन पर निर्भर रहते हैं जिनमें स्वाभाविक रूप से व्यक्तिगत या सांस्कृतिक रंगत की कमी होती है।
एक बड़े स्तर पर, इसका प्रभाव हाशिए पर पड़ी संस्कृतियों के लिए और भी गंभीर है। जब आर्टिफिशियल इंटेलिजेंस सिस्टम स्वचालित ग्राहक सेवा और रिज्यूमे की जाँच से लेकर कानूनी दस्तावेजों तक सब कुछ तेजी से नियंत्रित करने लगते हैं, तो गैर-मानक बोलियाँ बोलने वाले व्यक्तियों को एक स्पष्ट नुकसान का सामना करना पड़ता है। स्वचालित जाँच प्रणालियाँ उनकी बातों को गैर-पेशेवर या असंगत बताकर चिह्नित कर देती हैं, जो कोड की अदृश्य पंक्तियों के माध्यम से मौजूदा सामाजिक भेदभाव को और मजबूत करती हैं। इसके अलावा, जो भाषाएँ पहले से ही कमजोर हैं, उनके लिए आधुनिक डिजिटल बुनियादी ढाँचे के साथ बातचीत करने में असमर्थता उनके पतन को तेज कर देती है। अगर युवा पीढ़ी अपनी मातृभाषा का उपयोग अपने स्मार्टफोन पर या डिजिटल सहायकों के साथ नहीं कर सकती, तो उस भाषा को सीखने और संरक्षित करने की प्रेरणा तेजी से कम हो जाती है।
इस तकनीकी मिटाव को रोकने के लिए आर्टिफिशियल इंटेलिजेंस के निर्माण और उसे दिए जाने वाले धन के तरीके में एक सचेत बदलाव की आवश्यकता है। इसका समाधान केवल बड़ी टेक्नोलॉजी कंपनियों पर नहीं छोड़ा जा सकता, जिनका मुख्य मकसद सार्वभौमिक रूप से लागू होने वाले उत्पादों को जल्दी और सस्ते में बड़े पैमाने पर बनाना है। इसके बजाय, स्थानीय, समुदाय-संचालित भाषाई मॉडल विकसित करने के लिए एक ठोस प्रयास होना चाहिए। यह दृष्टिकोण उन कुछ क्षेत्रों में पहले से ही काफी उम्मीद जगा रहा है जिन्होंने डिजिटल विलुप्ति के खतरे को पहचान लिया है।
उदाहरण के लिए, आइसलैंड की सरकार ने विशेष रूप से खुले स्रोत वाले डिजिटल भाषा संसाधन बनाने में भारी निवेश किया है ताकि यह सुनिश्चित हो सके कि आर्टिफिशियल इंटेलिजेंस के युग में आइसलैंडिक भाषा अंग्रेजी में विलीन न हो जाए। न्यूजीलैंड में इसी तरह की जमीनी पहलों में, स्वदेशी समुदायों ने सक्रिय रूप से बोली और लिखी गई जानकारी को संकलित किया है ताकि ऐसे एल्गोरिदम बनाए जा सकें जो माओरी भाषा को अंग्रेजी-केंद्रित नजरिए से फिल्टर किए बिना समझ सकें। सरकारों और वैश्विक तकनीकी नियामकों को इन स्थानीय प्रयासों को अनिवार्य और सब्सिडी देनी चाहिए, ताकि यह सुनिश्चित हो सके कि एल्गोरिदम को विविध भाषाई समुदायों के भीतर शुरू से ही प्रशिक्षित किया जाए।
भाषा केवल जानकारी स्थानांतरित करने का एक सरल साधन नहीं है। यह मानव इतिहास का एक पात्र है, जो इसे बोलने वाले समुदायों के विश्वदृष्टिकोण, हास्य और सामूहिक स्मृति को साथ लेकर चलती है। जैसे-जैसे समाज अपने लेखन, अनुवाद और दैनिक संचार को एल्गोरिदम को सौंप रहा है, हमें इस आसान सुविधा की छिपी हुई कीमत को पहचानना होगा। अगर हम आर्टिफिशियल इंटेलिजेंस को मानवीय अभिव्यक्ति को एक ही, नीरस मानक में ढालने की अनुमति देते हैं, तो हम इंसानी सोच की अव्यवस्थित, सुंदर विविधता को चुप कराने का जोखिम उठाते हैं। टेक्नोलॉजी का अंतिम वादा सभी आवाजों को ऊपर उठाना होना चाहिए, न कि केवल उन आवाजों को जिनकी भविष्यवाणी करना एक मशीन के लिए सबसे आसान हो।