Новости IT: Масштабное исследование выявило непоследовательность ИИ в фильтрации онлайн-ненависти и языка вражды

Новая масштабная проверка выявила: искусственный интеллект, используемый для фильтрации онлайн-ненависти, проявляет поразительную непоследовательность. Исследование показало: один и тот же текст может быть признан «языком вражды» одной системой и посчитан допустимым другой — особенно если речь идёт об атаках на определённые демографические группы. В итоге именно выбор инструмента модерации определяет, что разрешено пользователям на платформе. Работу опубликовали в научном журнале по вычислительной лингвистике. Учёные из Университета Пенсильвании попытались системно разобраться: разрослись споры, по каким правилам управляют контентом — ведь токсичный дискурс стал привычным, а гиганты IT внедряют автоматические фильтры на основе языковых моделей. Однако никто раньше толком не выяснял, насколько эти фильтры (а их десятки!) действуют согласованно. Получается, что алгоритмы спорят между собой, а люди рискуют просто попасть под раздачу — и не получить одинаковой защиты.
Для теста исследователи сгенерировали массив из 1,3 млн нейтральных по структуре фраз со стандартными оскорблениями и угрозами. Фразы были сконструированы по шаблону: квантификатор («все» или «некоторые»), затем группа (например, «трансгендеры», «иммигранты»), далее — уничижительное высказывание, иногда добавлялся призыв к действию или насилию. Так же делалась выборка позитивных и нейтральных фраз для поиска ложных срабатываний. Затем всё это прогнали через семь популярных AI-фильтров: от профильных OpenAI и Mistral до универсальных Claude, GPT-4o, DeepSeek и Google Perspective API. Результат удивил даже учёных: критерии оценки различались в разы! Модели от Mistral были ультрастрогими, Google и GPT-4o — либеральней, а у OpenAI — вообще разброд и шатание. Особенно разброс усиливался при оценке высказываний о разных группах: для гендера или ориентации фильтры чаще сходились во мнениях, а вот по соцклассу и интересам — хаос. Например, фраза про «woke-людей» вызывала разбежность в оценке от «максимальной агрессии» до «всё ок».
Склонность к ошибкам тоже варьировалась: некоторые AI-фильтры массово банили любой позитив про группы с негативной репутацией, а другие реагировали только на явный негатив. С скрытой ненавистью («[СЛЁР] — замечательные люди») путались почти все. Авторы подчёркивают: работа — только снимок момента, ведь нейросети обновляются, а шаблонные фразы не всегда отражают реальный интернет-хейт. Но вывод очевиден: автоматические правила в Сети — размыты, неравны и зависят от чьей-то прихоти, а не универсального человеческого закона. Исследование провели Neil Fasching и Yphtach Lelkes.

Казалось бы, эпоха борьбы с ненавистью в сети — время триумфа искусственного интеллекта. Но вот незадача: одни роботы топят за железную цензуру, другие хлопают ушами, пропуская мемы про «биологические особенности» кого-нибудь очередного. Любой цифровой фильтр — продукт чьего-то наспех написанного протокола, отражающий интересы корпоративного айтишника или заботливого пиар-отдела. Семь систем, семь совершенно разных приговоров для одинокой строчки — и кто там из них вообще виноват? Пока между платформами нет никакой гармонии: громкие банальные лозунги о «безопасности» разлетаются, как сухарики по театру. Слабоумная строгость против инфантильной снисходительности — весь диапазон от тотального карантина до полной анархии.

Реальный смысл исследования — никакого смысла для обычного пользователя. Какой фильтр поставлен — такая и «защита» ваших чувств. Умные фильтры не лечат общество, а лишь подкидывают проблемы новым поколениям юристов и психологов. Надёжно? Разумеется, нет. Следующий апдейт только всё усугубит. Оценка: шедевр постиронии, но не руководство к действию.

PEREC.RU

Похожие материалы