Mengapa Kecerdasan Buatan Perlahan Menyeragamkan Bahasa Manusia
28 Maret 2026

Narasi yang umum seputar kecerdasan buatan generatif adalah tentang koneksi tanpa batas. Konsumen dan pakar teknologi sama-sama merayakan masa depan di mana terjemahan instan yang mulus menghapus batasan, memungkinkan seorang pedagang di Tokyo bernegosiasi dengan lancar dengan seorang pembeli di Buenos Aires. Mudah untuk berasumsi bahwa algoritma canggih ini adalah penjaga utama komunikasi global, yang meruntuhkan hambatan bahasa yang selama ini ada. Namun, di balik keajaiban teknologi ini, ada ancaman besar yang paradoksal. Alih-alih melestarikan spektrum ekspresi manusia yang luas, penggunaan kecerdasan buatan secara masif justru secara diam-diam menyeragamkannya. Hal ini mendorong bahasa minoritas dan dialek daerah menuju kepunahan di dunia digital.
Cara kerja *machine learning* sepenuhnya bergantung pada data yang dimasukkan ke dalamnya, dan dunia digital sangat tidak seimbang. Meskipun ada lebih dari tujuh ribu bahasa lisan di seluruh dunia, hanya sebagian kecil yang mendominasi internet. Studi dari lembaga seperti Stanford Institute for Human-Centered Artificial Intelligence terus-menerus menyoroti bahwa model bahasa besar sebagian besar dilatih menggunakan bahasa Inggris Amerika standar. Ketika para peneliti menguji kemampuan model-model terkemuka ini untuk memahami atau menghasilkan dialek daerah, hasilnya menunjukkan adanya penghapusan linguistik yang sistemik. Sistem sering kali salah menafsirkan dialek seperti *African American Vernacular English* atau dialek pedesaan Appalachian. Terkadang, sistem secara agresif mengoreksi teks menjadi bahasa standar korporat yang kaku dan hambar.
Demikian pula, jika dilihat lebih luas pada adopsi teknologi global, bahasa-bahasa yang tidak memiliki arsip digital yang besar secara efektif tertinggal dari revolusi kecerdasan buatan. Data yang dianalisis oleh lembaga linguistik global menunjukkan bahwa bahasa dengan jutaan penutur, seperti beberapa bahasa di Afrika atau Asia Tenggara, sering dianggap sebagai bahasa “sumber daya rendah” oleh pengembang algoritma. Karena tidak ada cukup teks digital yang tersedia untuk melatih model secara efektif, algoritma gagal memahami kerumitan bahasa tersebut. Akibatnya, pengguna bahasa-bahasa ini terpaksa beralih ke bahasa Inggris atau bahasa dominan lainnya untuk dapat berpartisipasi dalam ekonomi digital modern.
Penyebab mendasar dari penyeragaman bahasa ini bukanlah niat jahat, melainkan optimalisasi matematis. Model bahasa besar bekerja dengan memprediksi kata berikutnya yang paling mungkin muncul secara statistik, berdasarkan miliaran parameter yang diambil dari data di internet. Karena internet didominasi oleh bahasa Inggris standar, algoritma secara alami lebih menyukai sintaksis, kosakata, dan idiom budayanya. Selama tahap penyempurnaan, masukan dari manusia semakin melatih model untuk menghasilkan respons yang dianggap sopan, profesional, dan dapat dimengerti secara universal. Akibatnya, sistem akan menganggap penyimpangan bahasa, bahasa sehari-hari, dan nuansa budaya yang tidak sesuai dengan norma statistik yang ada sebagai sebuah kesalahan.
Algoritma tidak dapat membedakan antara kesalahan tata bahasa dan dialek budaya yang sudah mengakar kuat. Algoritma hanya mengidentifikasi penyimpangan dari kumpulan data dominan dan memperbaikinya. Seiring waktu, proses “penghalusan” statistik ini menciptakan suara yang seragam, yang tidak memiliki cita rasa daerah, kedalaman emosional, atau kekhasan budaya. Ini adalah jalan tengah algoritmik yang dirancang agar tidak menyinggung siapa pun dan dapat dipahami oleh semua orang, tetapi dalam prosesnya, ia mengorbankan kekayaan komunikasi manusia yang autentik.
Konsekuensi dari penghalusan oleh algoritma ini jauh melampaui linguistik akademis. Seiring jutaan orang menggunakan alat teks generatif, penjawab email otomatis, dan pengetikan prediktif dalam rutinitas harian mereka, tulisan manusia itu sendiri mulai berubah. Bahasa membentuk pemikiran. Ketika alat yang kita gunakan untuk berkomunikasi terus-menerus mendorong kita ke arah gaya bahasa yang seragam dan algoritmik, kita perlahan-lahan meninggalkan suara unik kita. Orang-orang tanpa sadar mengubah kosakata mereka untuk memastikan mesin memahaminya, atau mengandalkan mesin untuk membuat draf pesan yang pada dasarnya tidak memiliki sentuhan pribadi atau budaya.
Pada tingkat yang lebih luas, dampaknya bahkan lebih parah bagi budaya yang terpinggirkan. Ketika sistem kecerdasan buatan semakin banyak mengatur segalanya, mulai dari layanan pelanggan otomatis dan penyaringan riwayat hidup (CV) hingga dokumentasi hukum, individu yang menggunakan dialek non-standar menghadapi kerugian yang nyata. Ekspresi mereka ditandai sebagai tidak profesional atau tidak jelas oleh penyaring otomatis, yang akhirnya memperkuat hierarki sosial yang sudah ada melalui baris-baris kode yang tak terlihat. Selain itu, bagi bahasa yang sudah rentan, ketidakmampuan untuk berinteraksi dengan infrastruktur digital modern akan mempercepat kemundurannya. Jika generasi muda tidak dapat menggunakan bahasa ibu mereka di ponsel pintar atau dengan asisten digital, insentif untuk belajar dan melestarikan bahasa itu akan menurun drastis.
Mencegah penghapusan oleh teknologi ini membutuhkan perubahan yang disengaja dalam cara kecerdasan buatan dibangun dan didanai. Solusinya tidak bisa diserahkan begitu saja kepada perusahaan teknologi raksasa, yang insentif utamanya adalah mengembangkan produk yang bisa dipakai secara universal dengan cepat dan murah. Sebaliknya, harus ada upaya bersama untuk mengembangkan model bahasa lokal yang digerakkan oleh komunitas. Pendekatan ini sudah menunjukkan harapan besar di beberapa wilayah yang telah menyadari ancaman kepunahan digital.
Sebagai contoh, pemerintah Islandia telah berinvestasi besar dalam menciptakan sumber daya bahasa digital *open-source* khusus untuk memastikan bahasa Islandia tidak ditelan oleh bahasa Inggris di era kecerdasan buatan. Inisiatif serupa di Selandia Baru telah memperlihatkan komunitas adat secara aktif mengumpulkan data lisan dan tulisan untuk membangun algoritma yang memahami bahasa Maori tanpa menyaringnya melalui kacamata yang berpusat pada bahasa Inggris. Pemerintah dan regulator teknologi global harus mewajibkan dan menyubsidi upaya-upaya lokal ini, untuk memastikan bahwa algoritma dilatih dari awal di dalam komunitas linguistik yang beragam.
Bahasa lebih dari sekadar alat untuk menyampaikan informasi. Bahasa adalah wadah sejarah manusia, yang membawa pandangan dunia, humor, dan memori kolektif dari komunitas yang menuturkannya. Saat masyarakat semakin mengandalkan algoritma untuk menulis, menerjemahkan, dan berkomunikasi sehari-hari, kita harus menyadari harga yang harus dibayar dari kemudahan tanpa hambatan ini. Jika kita membiarkan kecerdasan buatan mengoptimalkan ekspresi manusia menjadi satu standar tunggal yang kaku dan steril, kita berisiko membungkam keragaman pemikiran manusia yang kaya dan indah. Janji utama dari teknologi seharusnya adalah untuk mengangkat semua suara, bukan hanya suara yang paling mudah diprediksi oleh mesin.