Anthropic का सोर्स कोड लीक: सिर्फ़ कंपनी की नहीं, सबकी सुरक्षा दांव पर
1 अप्रैल 2026

जब ज़्यादातर लोग 'सोर्स कोड लीक' सुनते हैं, तो वे इसे किसी कंपनी की शर्मिंदगी, कारोबारी राज़ खुलने या प्रतिस्पर्धियों के बीच कानूनी लड़ाई के तौर पर देखते हैं। लेकिन यह एक बहुत छोटा दायरा है। आर्टिफिशियल इंटेलिजेंस (AI) की दुनिया में, लीक का मतलब इससे कहीं ज़्यादा बड़ा हो सकता है। इसका मतलब उन छिपे हुए निर्देशों, सुरक्षा नियंत्रणों और आंतरिक टूल का सामने आना है, जो तय करते हैं कि एक शक्तिशाली मॉडल असल दुनिया में कैसा व्यवहार करेगा। अगर Anthropic जैसी किसी बड़ी AI कंपनी से जुड़ा कोड लीक हो जाता है, तो यह मामला सिर्फ़ बौद्धिक संपदा (intellectual property) तक ही सीमित नहीं रहेगा। यह एक ज़्यादा मुश्किल सवाल खड़ा करेगा: क्या आज के सबसे प्रभावशाली AI सिस्टम को उतनी गंभीरता से सुरक्षित रखा जा रहा है, जितनी कि एक महत्वपूर्ण डिजिटल इंफ्रास्ट्रक्चर से उम्मीद की जाती है?
यह चिंता सिर्फ़ हवा-हवाई नहीं है। आज के AI स्टैक में सिर्फ़ एक चैट इंटरफ़ेस से कहीं ज़्यादा चीज़ें होती हैं। कंपनियां मॉडल वेट्स, फाइन-ट्यूनिंग के तरीकों, सिस्टम प्रॉम्प्ट्स, कंटेंट फिल्टर्स, रिट्रीवल पाइपलाइन्स, इवैल्यूएशन टूल्स और इंटरनल डैशबोर्ड के इर्द-गिर्द अपने सिस्टम बनाती हैं। हो सकता है कि इनमें से कुछ चीज़ें कभी भी पारंपरिक कोड रिपॉज़िटरी में दिखाई न दें। लेकिन जहां ये दिखती हैं, वहां कोड उन धारणाओं और कमज़ोरियों को उजागर कर सकता है, जिन पर लाखों लोग लिखने, कोडिंग, सर्च, कस्टमर सर्विस और कारोबारी फ़ैसलों के लिए भरोसा करते हैं। एक ऐसे सेक्टर में जो जनता से लगातार अदृश्य सुरक्षा उपायों पर भरोसा करने के लिए कह रहा है, थोड़ी सी भी जानकारी का लीक होना मायने रखता है।
हाल के सालों ने दिखाया है कि जब तेज़ी से आगे बढ़ रहे AI सिस्टम में लीक होता है, तो यह कितना नुक़सानदेह हो सकता है। 2023 में, गूगल की कुछ आंतरिक सामग्रियां ऑनलाइन सामने आ गईं। इससे बाहरी लोगों को यह समझने में मदद मिली कि दुनिया का सबसे बड़ा टेक्नोलॉजी ग्रुप ओपन-सोर्स AI कॉम्पिटिशन के बारे में क्या सोच रहा था। लगभग उसी समय, Meta के LLaMA मॉडल वेट्स अपने तय ऑडियंस से कहीं ज़्यादा फैल गए, जिससे इस क्षेत्र में प्रयोगों में तेज़ी आई। समर्थकों ने कहा कि इससे रिसर्च में मदद मिली। आलोचकों का कहना था कि इससे उन्नत क्षमताओं की नक़ल करना, उन्हें बदलना और उनका ग़लत इस्तेमाल करना आसान हो गया। बात यह नहीं है कि सभी लीक एक जैसे होते हैं। बल्कि यह है कि AI लीक का असर किसी एक कंपनी के मुनाफ़े-नुक़सान से कहीं ज़्यादा होता है।
साइबर सुरक्षा के सबूत भी चिंताजनक हैं। IBM की 2024 'कॉस्ट ऑफ़ ए डेटा ब्रीच' रिपोर्ट में पाया गया कि डेटा ब्रीच की वैश्विक औसत लागत 4.88 मिलियन डॉलर के सर्वकालिक उच्च स्तर पर पहुंच गई। यह आंकड़ा सिर्फ़ AI कंपनियों का नहीं, बल्कि सभी तरह के कारोबारी नुक़सान को कवर करता है। लेकिन AI कंपनियों पर एक अतिरिक्त जोखिम होता है क्योंकि उनके प्रोडक्ट्स अक्सर दूसरी सेवाओं के अंदर इस्तेमाल होते हैं। किसी एक मॉडल प्रोवाइडर की एक कमज़ोरी का असर API के ज़रिए उस मॉडल का इस्तेमाल करने वाली क़ानूनी फर्मों, अस्पतालों, स्कूलों, सॉफ़्टवेयर टीमों और सरकारी ठेकेदारों तक पहुंच सकता है। एक सुरक्षा घटना कई दूसरी समस्याओं की वजह बन सकती है।
इसकी मूल वजह सीधी और असहज करने वाली है। AI कंपनियां तेज़ी से काम करती हैं क्योंकि बाज़ार में रफ़्तार को इनाम मिलता है। नए मॉडल लॉन्च होने से रातों-रात कंपनियों का मूल्यांकन बदल सकता है, बड़े कॉन्ट्रैक्ट मिल सकते हैं और लोगों की धारणा बदल सकती है। सुरक्षा और आंतरिक ऐक्सेस कंट्रोल में सुधार अक्सर धीमी गति से होता है। यह असंतुलन टेक्नोलॉजी की दुनिया में आम है, लेकिन AI इसे और बढ़ा देता है क्योंकि इसका डेवलपमेंट क्लाउड टूल्स, शेयर्ड रिपॉज़िटरी, थर्ड-पार्टी इंटीग्रेशन और कॉन्ट्रैक्टर्स का इस्तेमाल करने वाली बड़ी और फैली हुई टीमों में होता है। हर अतिरिक्त परत विफलता का एक नया बिंदु बन सकती है। साफ़ शब्दों में कहें तो, जो लचीलापन कंपनियों को अत्याधुनिक सिस्टम बनाने में मदद करता है, वही संवेदनशील कोड या कॉन्फ़िगरेशन डिटेल्स को ग़लत जगह फैलना आसान बना सकता है।
एक कल्चर से जुड़ी समस्या भी है। AI इंडस्ट्री ने सालों तक खुद को खुलेपन, प्रगति और तेज़ी से सुधार करने वाले क्षेत्र के रूप में पेश किया है। इन मूल्यों ने रिसर्च को फलने-फूलने में मदद की। लेकिन इन्होंने स्वस्थ जानकारी साझा करने और ख़तरनाक जानकारी के लीक होने के बीच की रेखा को भी धुंधला कर दिया। अकादमिक मशीन लर्निंग लंबे समय तक अपने तरीकों, बेंचमार्क और कोड को प्रकाशित करने पर निर्भर रही। लेकिन अब अत्याधुनिक कमर्शियल AI सिर्फ़ एक अकादमिक प्रोजेक्ट नहीं रहा। यह एक ऊंचे दांव वाला उद्योग है, जिसके प्रोडक्ट्स वित्तीय सलाह, क़ानूनी ड्राफ़्टिंग, शिक्षा और राजनीतिक जानकारी को प्रभावित करते हैं। एक ज़्यादा खुले रिसर्च युग की सुरक्षा आदतें हमेशा इस नई हक़ीक़त में फ़िट नहीं बैठतीं।
अगर Anthropic जैसी कंपनी से जुड़ा सोर्स कोड लीक हो जाता है, तो तुरंत डर क्लोनिंग या प्रतिस्पर्धियों द्वारा नक़ल किए जाने का होगा। यह एक वास्तविक ख़तरा है। लेकिन इससे भी बड़ा जोखिम यह है कि बुरे इरादे वाले लोग लीक हुई सामग्री का इस्तेमाल सुरक्षा गार्डरेल्स को समझने और उनसे बचने के रास्ते खोजने के लिए कर सकते हैं। सुरक्षा सिस्टम अक्सर कई परतों में काम करते हैं: एक प्रॉम्प्ट नुक़सानदेह अनुरोधों की एक श्रेणी को रोकता है, दूसरा क्लासिफ़ायर जोखिम भरे आउटपुट का पता लगाता है, और एक तीसरा आंतरिक नियम यह बदलता है कि मॉडल कुछ ख़ास मामलों (edge cases) को कैसे हैंडल करेगा। अगर इन परतों को समझना आसान हो जाए, तो हमलावरों को एक गाइडबुक मिल जाती है। यह कोई कोरी कल्पना नहीं है। सुरक्षा शोधकर्ताओं ने बार-बार दिखाया है कि मॉडल्स को सावधानी से तैयार किए गए प्रॉम्प्ट्स से 'जेलब्रेक' किया जा सकता है, और पब्लिक प्रॉम्प्ट-शेयरिंग कम्युनिटीज़ ने ठीक यही करने के तरीक़े एक-दूसरे से बांटे हैं।
इसका सामाजिक प्रभाव भी उतना ही गंभीर है। AI पर भरोसा पहले से ही नाज़ुक है। एडलमैन ट्रस्ट बैरोमीटर और प्यू रिसर्च सेंटर दोनों के सर्वे में AI के काम, ग़लत सूचना और सुरक्षा पर पड़ने वाले असर को लेकर आम जनता में बेचैनी दिखाई दी है। संयुक्त राज्य अमेरिका में, प्यू ने 2024 में बताया कि रोज़मर्रा की ज़िंदगी में AI के बढ़ते इस्तेमाल को लेकर उत्साहित होने वालों से ज़्यादा चिंतित होने वाले अमेरिकी थे। एक बड़ा लीक इस संदेह को और गहरा कर देगा। यह इस बात का संकेत देगा कि जो कंपनियां स्कूलों, अस्पतालों और सरकारी एजेंसियों से बड़े पैमाने पर AI अपनाने के लिए कह रही हैं, वे शायद अभी भी अपने सिस्टम की बुनियादी देखरेख के लिए संघर्ष कर रही हैं।
इसके आर्थिक परिणाम व्यापक हो सकते हैं। जो कारोबार किसी AI प्रोवाइडर को चुनते हैं, वे सिर्फ़ एक चालाक सॉफ़्टवेयर नहीं ख़रीद रहे होते। वे उसकी विश्वसनीयता, नियमों के पालन और निरंतरता पर दांव लगा रहे होते हैं। अगर लीक हुए कोड से कमज़ोर प्रथाओं का पता चलता है, तो रेगुलेटेड सेक्टर के क्लाइंट्स अपने डिप्लॉयमेंट पर फिर से विचार कर सकते हैं या उन्हें धीमा कर सकते हैं। यह बात इसलिए मायने रखती है क्योंकि अब एंटरप्राइज़ खर्च AI बिज़नेस मॉडल के केंद्र में है। जेनरेटिव AI को अपनाने पर मैकिन्से के हालिया सर्वे में पाया गया कि कंपनियां प्रयोगों से आगे बढ़कर गहरे ऑपरेशनल इस्तेमाल की ओर बढ़ रही हैं, ख़ासकर मार्केटिंग, सॉफ़्टवेयर और कस्टमर ऑपरेशंस में। ये निवेश इस भरोसे पर टिके हैं कि प्रोवाइडर सिर्फ़ यूज़र डेटा ही नहीं, बल्कि खुद सिस्टम की भी रक्षा कर सकते हैं।
इसका एक नीतिगत पहलू भी है। संयुक्त राज्य अमेरिका, यूरोपीय संघ और यूनाइटेड किंगडम की सरकारें अत्याधुनिक AI की सुरक्षा और गवर्नेंस के बारे में सख़्त सवाल पूछने लगी हैं। एक बड़ा लीक नियामकों (regulators) को शीर्ष AI फर्मों को सामान्य सॉफ़्टवेयर विक्रेता की तरह नहीं, बल्कि संवेदनशील इंफ्रास्ट्रक्चर के ऑपरेटर के रूप में देखने के लिए मजबूर कर सकता है। इसका मतलब रिपोर्टिंग के सख़्त नियम, बाहरी ऑडिट, मज़बूत इनसाइडर-थ्रेट कंट्रोल और ज़्यादा औपचारिक रेड-टीम टेस्टिंग हो सकता है। इंडस्ट्री में कुछ लोग इस विचार का विरोध करते हैं। उनका तर्क है कि भारी रेगुलेशन इनोवेशन को धीमा कर सकता है। लेकिन डिजिटल बाज़ारों का इतिहास इसके उलट सबक सिखाता है: भरोसा और स्वीकार्यता अक्सर तब बढ़ती है जब यूज़र्स को विश्वास होता है कि न्यूनतम सुरक्षा उपाय वास्तविक हैं।
समझदारी भरी प्रतिक्रिया घबराना नहीं है, बल्कि परिपक्वता दिखाना है। AI फर्मों को ज़्यादा जोखिम वाले सिस्टम तक आंतरिक पहुंच को सीमित करना चाहिए, रिसर्च के माहौल को प्रोडक्शन सिस्टम से अलग करना चाहिए, मज़बूत कोड साइनिंग और मॉनिटरिंग का उपयोग करना चाहिए, और नियमित रूप से अंदरूनी जोखिम की समीक्षा करनी चाहिए। स्वतंत्र सुरक्षा ऑडिट अपवाद नहीं, बल्कि सामान्य बात बन जानी चाहिए। बड़े ग्राहकों को भी AI की ख़रीद को एक साधारण सॉफ़्टवेयर ख़रीद की तरह मानना बंद कर देना चाहिए। उन्हें प्रोवाइडर्स से रिपॉज़िटरी सुरक्षा, घटना से निपटने की तैयारी, कॉन्ट्रैक्टर की पहुंच और मॉडल सुरक्षा उपायों की टेस्टिंग के बारे में सीधे सवाल पूछने चाहिए। बोर्ड और अधिकारियों को यह समझने की ज़रूरत है कि AI का जोखिम सिर्फ़ ग़लत आउटपुट तक ही सीमित नहीं है। यह उस छिपी हुई मशीनरी में भी रहता है जो उन्हें पैदा करती है।
गहरा सबक यह है, जिसे AI इंडस्ट्री अब भी मानने से हिचकती है। शक्तिशाली मॉडल कोई जादुई उत्पाद नहीं हैं जो सामान्य नियमों से ऊपर तैरते हों। वे इंसानों द्वारा बनाए जाते हैं, सर्वर पर स्टोर होते हैं, कोड के ज़रिए मैनेज होते हैं, और उन्हीं विफलताओं के प्रति संवेदनशील होते हैं जो बाक़ी टेक्नोलॉजी को प्रभावित करती हैं। Anthropic जैसी कंपनी से जुड़ा सोर्स कोड लीक इसलिए मायने रखेगा, क्योंकि यह उस भ्रम को तोड़ेगा कि सब कुछ पूरी तरह नियंत्रण में है, और याद दिलाएगा कि असल में तो पूरा नियंत्रण कभी था ही नहीं। जनता को इसे गंभीरता से लेना चाहिए, और हर उस कंपनी को भी, जो अगला अत्यावश्यक मशीन दिमाग बनाने की दौड़ में है।