Vì sao Trí tuệ Nhân tạo đang dần san phẳng ngôn ngữ của loài người

28 tháng 3, 2026

Câu chuyện phổ biến về trí tuệ nhân tạo tạo sinh là về khả năng kết nối không giới hạn. Người tiêu dùng và các nhà công nghệ đều ca ngợi một tương lai nơi công nghệ dịch thuật tức thời, liền mạch sẽ xóa nhòa mọi biên giới, giúp một thương nhân ở Tokyo có thể giao dịch suôn sẻ với một người mua ở Buenos Aires. Nhiều người dễ cho rằng những thuật toán tinh vi này là người bảo vệ tối cao cho giao tiếp toàn cầu, giúp phá bỏ các rào cản ngôn ngữ lịch sử. Tuy nhiên, ẩn sau phép màu công nghệ này là một mối đe dọa sâu sắc và đầy nghịch lý. Thay vì bảo tồn sự đa dạng của cách diễn đạt của con người, việc áp dụng trí tuệ nhân tạo rộng rãi đang âm thầm tiêu chuẩn hóa nó, đẩy các ngôn ngữ thiểu số và phương ngữ địa phương đến bờ vực lỗi thời trong thế giới số.

Cơ chế hoạt động của học máy hoàn toàn phụ thuộc vào dữ liệu được cung cấp, và thế giới số lại mất cân bằng một cách sâu sắc. Dù trên thế giới có hơn bảy nghìn ngôn ngữ được sử dụng, chỉ một phần nhỏ trong số đó chiếm ưu thế trên internet. Các nghiên cứu từ những viện như Viện Trí tuệ Nhân tạo Lấy con người làm trung tâm của Stanford đã liên tục chỉ ra rằng các mô hình ngôn ngữ lớn chủ yếu được huấn luyện bằng tiếng Anh-Mỹ tiêu chuẩn. Khi các nhà nghiên cứu thử nghiệm khả năng hiểu hoặc tạo ra các phương ngữ địa phương của những mô hình nổi tiếng này, kết quả cho thấy một sự xóa sổ ngôn ngữ có hệ thống. Các hệ thống này thường hiểu sai các phương ngữ như tiếng Anh bản ngữ của người Mỹ gốc Phi hoặc giọng nói vùng nông thôn Appalachian, hoặc chúng sẽ tự động sửa văn bản thành một dạng ngôn ngữ chuẩn hóa, nhạt nhẽo và mang tính công sở.

Tương tự, khi nhìn rộng hơn vào việc áp dụng công nghệ toàn cầu, các ngôn ngữ thiếu kho lưu trữ kỹ thuật số lớn gần như bị loại khỏi cuộc cách mạng trí tuệ nhân tạo. Dữ liệu do các viện ngôn ngữ học toàn cầu phân tích cho thấy những ngôn ngữ có hàng triệu người nói, như một số ngôn ngữ châu Phi hoặc Đông Nam Á, thường bị các nhà phát triển thuật toán xem là "nguồn tài nguyên thấp". Vì không có đủ văn bản số hóa để huấn luyện mô hình một cách hiệu quả, các thuật toán không thể nắm bắt được sự phức tạp của chúng. Kết quả là, người dùng các ngôn ngữ này buộc phải chuyển sang tiếng Anh hoặc một ngôn ngữ thống trị khác để tham gia vào nền kinh tế kỹ thuật số hiện đại.

Nguyên nhân sâu xa của việc san phẳng ngôn ngữ này không phải là ý đồ xấu, mà là sự tối ưu hóa toán học. Các mô hình ngôn ngữ lớn hoạt động bằng cách dự đoán từ tiếp theo có khả năng xuất hiện cao nhất về mặt thống kê, dựa trên hàng tỷ tham số được lấy từ việc quét dữ liệu trên internet. Vì internet tràn ngập tiếng Anh tiêu chuẩn, các thuật toán tự nhiên ưu tiên cú pháp, từ vựng và thành ngữ văn hóa của nó. Trong giai đoạn tinh chỉnh, phản hồi của con người tiếp tục huấn luyện các mô hình tạo ra các câu trả lời được coi là lịch sự, chuyên nghiệp và dễ hiểu trên toàn cầu. Do đó, các hệ thống này sẽ loại bỏ những cách diễn đạt khác biệt, từ ngữ thông tục và các sắc thái văn hóa không phù hợp với tiêu chuẩn thống kê đã được thiết lập.

Thuật toán không thể phân biệt giữa một lỗi ngữ pháp và một phương ngữ mang đậm văn hóa. Nó chỉ đơn thuần xác định một sự khác biệt so với bộ dữ liệu chính và làm cho nó trở nên đồng nhất. Theo thời gian, việc làm đồng nhất dựa trên thống kê này tạo ra một giọng văn chung chung, thiếu bản sắc vùng miền, chiều sâu cảm xúc hay đặc trưng văn hóa. Đó là một sự trung hòa của thuật toán được thiết kế để không làm mất lòng ai và để mọi người đều hiểu, nhưng quá trình này đã hy sinh sự phong phú của giao tiếp chân thực của con người.

Hậu quả của việc làm đồng nhất bằng thuật toán này không chỉ dừng lại trong lĩnh vực ngôn ngữ học hàn lâm. Khi hàng triệu người tích hợp các công cụ tạo văn bản, trả lời email tự động và gõ phím dự đoán vào thói quen hàng ngày, chính cách viết của con người cũng bắt đầu thay đổi. Ngôn ngữ định hình tư duy, và khi các công cụ chúng ta dùng để giao tiếp liên tục hướng chúng ta đến một giọng văn đồng nhất của thuật toán, chúng ta dần từ bỏ giọng văn độc đáo của mình. Mọi người vô thức thay đổi từ vựng của mình để đảm bảo máy móc hiểu được hoặc họ dựa vào máy để soạn những tin nhắn vốn dĩ thiếu đi dấu ấn cá nhân hoặc văn hóa.

Ở cấp độ vĩ mô, tác động còn nghiêm trọng hơn đối với các nền văn hóa yếu thế. Khi các hệ thống trí tuệ nhân tạo ngày càng chi phối mọi thứ, từ dịch vụ khách hàng tự động, sàng lọc hồ sơ xin việc cho đến các tài liệu pháp lý, những người nói các phương ngữ không chuẩn sẽ phải đối mặt với một bất lợi rõ ràng. Cách diễn đạt của họ bị các công cụ sàng lọc tự động gắn cờ là không chuyên nghiệp hoặc không mạch lạc, củng cố thêm hệ thống phân cấp xã hội hiện có thông qua những dòng mã vô hình. Hơn nữa, đối với những ngôn ngữ vốn đã dễ bị tổn thương, việc không thể tương tác với cơ sở hạ tầng kỹ thuật số hiện đại sẽ đẩy nhanh sự suy tàn của chúng. Nếu thế hệ trẻ không thể sử dụng tiếng mẹ đẻ trên điện thoại thông minh hoặc với trợ lý kỹ thuật số, động lực để học và bảo tồn ngôn ngữ đó sẽ giảm đi nhanh chóng.

Để ngăn chặn sự xóa sổ công nghệ này, cần có một sự thay đổi chủ đích trong cách xây dựng và tài trợ cho trí tuệ nhân tạo. Giải pháp không thể chỉ trông chờ vào các tập đoàn công nghệ khổng lồ, vốn có động lực chính là mở rộng các sản phẩm có thể áp dụng toàn cầu một cách nhanh chóng và rẻ tiền. Thay vào đó, cần có một nỗ lực chung để phát triển các mô hình ngôn ngữ địa phương hóa, do cộng đồng thúc đẩy. Cách tiếp cận này đã cho thấy những hứa hẹn to lớn ở một số khu vực đã nhận ra mối đe dọa về sự tuyệt chủng kỹ thuật số.

Ví dụ, chính phủ Iceland đã đầu tư rất nhiều vào việc tạo ra các tài nguyên ngôn ngữ kỹ thuật số mã nguồn mở để đảm bảo tiếng Iceland không bị tiếng Anh nuốt chửng trong kỷ nguyên trí tuệ nhân tạo. Các sáng kiến tương tự ở New Zealand cũng chứng kiến các cộng đồng bản địa tích cực thu thập dữ liệu nói và viết để xây dựng các thuật toán có thể hiểu được tiếng Maori mà không cần lọc qua lăng kính lấy tiếng Anh làm trung tâm. Các chính phủ và cơ quan quản lý công nghệ toàn cầu phải yêu cầu và tài trợ cho những nỗ lực địa phương hóa này, đảm bảo các thuật toán được huấn luyện từ đầu trong các cộng đồng ngôn ngữ đa dạng.

Ngôn ngữ không chỉ đơn thuần là một công cụ để truyền tải thông tin. Nó là con thuyền chuyên chở lịch sử nhân loại, mang theo thế giới quan, sự hài hước và ký ức tập thể của các cộng đồng sử dụng nó. Khi xã hội ngày càng giao phó việc viết lách, dịch thuật và giao tiếp hàng ngày cho các thuật toán, chúng ta phải nhận ra cái giá tiềm ẩn của sự tiện lợi này. Nếu chúng ta cho phép trí tuệ nhân tạo tối ưu hóa cách diễn đạt của con người thành một tiêu chuẩn duy nhất và vô hồn, chúng ta có nguy cơ làm câm lặng sự đa dạng phong phú và tươi đẹp của tư duy con người. Lời hứa cuối cùng của công nghệ phải là nâng tầm tất cả các tiếng nói, chứ không chỉ những tiếng nói mà máy móc dễ dàng dự đoán nhất.

Ấn phẩm

The World Dispatch

Nguồn: Editorial Desk

Danh mục: AI