Bị thuật toán xem là 'độc hại', cộng đồng LGBT đang dần 'biến mất' trên mạng

30 tháng 3, 2026

Bị thuật toán xem là 'độc hại', cộng đồng LGBT đang dần 'biến mất' trên mạng

Hầu hết mọi người đều cho rằng internet là một không gian công cộng trung lập. Chúng ta có xu hướng tin rằng những gì ta thấy trên mạng chỉ đơn giản phản ánh sự phổ biến, còn những gì biến mất là do bị đám đông phớt lờ. Nhưng bên dưới bề mặt cuộc sống số hàng ngày của chúng ta, các hệ thống tự động đang âm thầm đưa ra những quyết định biên tập khổng lồ. Các thuật toán phần mềm, được thiết kế để giữ cho nền tảng an toàn và thân thiện với nhà quảng cáo, đang hành động như những người bảo vệ vô hình. Và đối với cộng đồng LGBT, những người gác cổng kỹ thuật số này thường coi chính sự tồn tại của họ là một sự vi phạm quy tắc.

Nhiều người thường cho rằng việc kiểm duyệt nội dung chỉ nhắm vào các hành vi thực sự gây hại, như phát ngôn thù ghét có chủ đích hay hoạt động bất hợp pháp. Trên thực tế, hạ tầng kỹ thuật số của web hiện đại phụ thuộc rất nhiều vào các bộ lọc từ khóa thô sơ và phần mềm nhận dạng mẫu. Trong vài năm qua, các nhà nghiên cứu phân tích các nền tảng kỹ thuật số đã phát hiện một quy luật đáng lo ngại. Các hệ thống kiểm duyệt tự động thường xuyên gắn cờ những từ ngữ vô hại liên quan đến bản dạng LGBT, coi chúng mặc nhiên là nội dung người lớn, gây tranh cãi hoặc độc hại.

Nghiên cứu từ các tổ chức như Trung tâm Dân chủ và Công nghệ (Center for Democracy and Technology) đã nhấn mạnh sự xung đột kỹ thuật số này. Các nghiên cứu thử nghiệm những mô hình xử lý ngôn ngữ tự nhiên đã cho thấy các công cụ trí tuệ nhân tạo liên tục gán điểm độc hại cao hơn cho những câu chỉ đơn giản chứa các từ như "gay" (đồng tính nam), "lesbian" (đồng tính nữ) hay "transgender" (chuyển giới). Một mô hình được ghi nhận rõ ràng trên các mạng quảng cáo lớn cho thấy, những thuật ngữ cơ bản về bản dạng này đã bị xếp vào danh sách chặn để đảm bảo an toàn thương hiệu, ngay bên cạnh những từ chửi thề và ngôn ngữ bạo lực. Các nhà quảng cáo sử dụng những công cụ phần mềm này để tránh đặt quảng cáo cạnh nội dung gây tranh cãi. Kết quả là, những bài viết hoặc video hoàn toàn bình thường về cuộc sống của người LGBT đều tự động bị tước doanh thu quảng cáo.

Đây không phải là vấn đề của một vài trang web bị lỗi. Đây là một vấn đề mang tính hệ thống, nằm sâu trong công nghệ doanh nghiệp đang vận hành internet toàn cầu. Các nền tảng mạng xã hội dựa vào kiểm duyệt tự động để quét hàng tỷ bài đăng mỗi ngày. Khi một người trẻ tìm kiếm các nguồn hỗ trợ cộng đồng, hoặc một hãng tin độc lập đăng một câu chuyện về quyền công dân, phần mềm nền tảng thường hạn chế phạm vi tiếp cận của nội dung đó. Dữ liệu từ các nhóm vận động cho nhà sáng tạo nội dung liên tục cho thấy rằng những người sáng tạo nội dung queer bị sụt giảm đột ngột về lượng khán giả tiếp cận, một hiện tượng thường được gọi là "shadowbanning" (bóp tương tác), chỉ vì sử dụng các thuật ngữ của chính cộng đồng mình trong tiêu đề hoặc thẻ.

Để hiểu tại sao điều này xảy ra, bạn phải xem cách các hệ sinh thái phần mềm hiện đại được xây dựng. Các mô hình học máy không hiểu được ngữ cảnh của con người. Chúng được huấn luyện trên những bộ dữ liệu khổng lồ được thu thập từ internet mở. Vì các thuật ngữ LGBT thường là mục tiêu của quấy rối, bắt nạt và tranh luận chính trị gay gắt trên mạng, các thuật toán học cách liên kết những từ này với xung đột. Trí tuệ nhân tạo đã liên kết bản dạng với sự độc hại về mặt toán học. Khi một kỹ sư phần mềm đặt tham số để lọc nội dung thù địch, cỗ máy sẽ tận tụy chặn luôn cả mục tiêu của sự thù địch cùng với những kẻ tấn công.

Hơn nữa, ngành công nghệ doanh nghiệp luôn ưu tiên quy mô hơn là sự tinh tế. Đối với một nền tảng đám mây hay một mạng xã hội toàn cầu, việc sử dụng các danh sách chặn từ khóa rộng sẽ rẻ hơn và nhanh hơn là thuê đủ người kiểm duyệt để hiểu ngữ cảnh. Một cỗ máy không thể dễ dàng phân biệt được sự khác nhau giữa một từ miệt thị được dùng làm vũ khí và một người thuộc nhóm yếu thế sử dụng lại từ đó để khẳng định bản dạng của mình. Do đó, kiến trúc kỹ thuật số mặc định chọn cách đàn áp thẳng thừng, ngại rủi ro. Phần mềm thực chất quyết định rằng cách an toàn nhất để xử lý các chủ đề LGBT là chỉ cần giấu chúng đi.

Hậu quả của sự xóa sổ bằng thuật toán này rất nghiêm trọng. Đối với các nhà xuất bản truyền thông kỹ thuật số, việc bị phần mềm an toàn thương hiệu gắn cờ đồng nghĩa với việc mất đi nguồn thu quảng cáo cần thiết để duy trì hoạt động. Nhiều hãng tin LGBT độc lập đã phải đối mặt với sự sụp đổ tài chính chỉ vì hạ tầng kỹ thuật số tự động cho rằng các bài viết của họ quá rủi ro đối với các nhà tài trợ doanh nghiệp. Phần mềm âm thầm bóp nghẹt nguồn thu của các tổ chức này mà không bao giờ đưa ra một lệnh cấm chính thức.

Ở cấp độ con người, tác động này còn gây cô lập hơn nữa. Trong nhiều thập kỷ, internet đã là một huyết mạch sống còn cho những người sống trong các gia đình không ủng hộ hoặc các khu vực thù địch. Đó thường là nơi duy nhất mà các cá nhân có thể an toàn đặt câu hỏi về bản dạng của mình hoặc tìm kiếm một cộng đồng hỗ trợ. Khi các công cụ tìm kiếm và thuật toán mạng xã hội vùi lấp những cuộc trò chuyện này dưới vỏ bọc an toàn cho người dùng, chúng đã cắt đứt huyết mạch kỹ thuật số đó. Một thiếu niên tìm kiếm sự hỗ trợ có thể chỉ thấy những trang trống, cảnh báo nội dung bị hạn chế, hoặc chỉ những bài đăng đã được "làm sạch" của các công ty, đơn giản vì hệ sinh thái phần mềm nền tảng xem các từ khóa tìm kiếm của họ là không phù hợp.

Để khắc phục điều này, cần có một sự thay đổi căn bản trong cách các công ty công nghệ thiết kế hạ tầng kỹ thuật số của họ. Các kỹ sư phần mềm phải ngừng dựa vào các danh sách chặn từ khóa một cách lười biếng và xây dựng trí tuệ nhân tạo tinh vi hơn, có khả năng nhận biết ngữ cảnh. Dữ liệu huấn luyện cần được kiểm tra nghiêm ngặt để đảm bảo rằng các mô hình học máy không hấp thụ và khuếch đại những định kiến có sẵn trên internet. Các công ty công nghệ phải chủ động đào tạo hệ thống tự động của mình để phân biệt giữa phát ngôn thù ghét nhắm vào một cộng đồng và ngôn ngữ bình thường, hàng ngày được chính cộng đồng đó sử dụng.

Hơn nữa, lĩnh vực công nghệ doanh nghiệp cần khôi phục sự giám sát của con người trong các vòng lặp kiểm duyệt của mình. Mặc dù tự động hóa là cần thiết để xử lý khối lượng truy cập internet khổng lồ, nhưng ngữ cảnh của con người là yếu tố thiết yếu để đảm bảo sự công bằng. Các công ty công nghệ nên cung cấp quy trình kháng cáo minh bạch khi nội dung bị tắt kiếm tiền hoặc bị hạn chế, cho phép người dùng thách thức các quyết định tự động được đưa ra bởi các thuật toán ẩn. Các nền tảng phải chịu trách nhiệm về những thiệt hại đi kèm mà các công cụ an toàn của họ gây ra.

Công nghệ không bao giờ thực sự trung lập. Các hệ sinh thái phần mềm mà chúng ta tương tác hàng ngày được xây dựng bởi con người, và chúng phản ánh những điểm mù của người tạo ra chúng. Khi chúng ta cho phép hạ tầng kỹ thuật số coi cả một nhóm nhân khẩu học là một lỗi hệ thống hay một rủi ro thương hiệu, chúng ta đã thất bại trong lời hứa cơ bản của internet. Một thế giới thực sự kết nối đòi hỏi những không gian kỹ thuật số có thể dung chứa toàn bộ quang phổ của bản dạng con người. Cho đến khi ngành công nghệ cập nhật những giả định cốt lõi của mình, những người gác cổng tự động của họ sẽ tiếp tục thực thi một sự xóa sổ âm thầm bằng thuật toán.

Ấn phẩm

The World Dispatch

Nguồn: Editorial Desk

Danh mục: Công nghệ