На Википедии нашли галлюцинации в ИИ-переводах и ввели ограничения

На Википедии нашли галлюцинации в ИИ-переводах и ввели ограничения

На Википедии нашли галлюцинации в ИИ-переводах и ввели ограничения

У Википедии снова случился спор про ИИ, на этот раз из-за переводов. Редакторы ввели новые ограничения для части переводчиков, связанных с Open Knowledge Association (OKA), после того как в ряде ИИ-переводов нашли галлюцинации: подменённые источники, неподтверждённые фразы и даже абзацы, опиравшиеся на материалы, не связанные с темой статьи.

Сама OKA — это швейцарская некоммерческая организация, которая платит стипендии переводчикам и прямо пишет на своём сайте, что использует большие языковые модели, чтобы автоматизировать значительную часть работы.

В англоязычном сегменте Википедии у проекта есть отдельная страница, там сказано, что OKA финансирует переводчиков и работает с несколькими языками, включая русский, испанский, французский и немецкий.

Проблему заметили не «в теории», а на конкретных статьях. Один из редакторов, Ильяс Леблё, рассказал 404 Media, что при выборочной проверке быстро нашёл ошибки: где-то источники были перепутаны, где-то появлялись фразы без верификации, а в одном случае в статью про выборы во французский Сенат попали абзацы, вообще не подтверждавшиеся указанными материалами.

Отдельно редакторов смутило, как именно была организована работа. Публичные инструкции OKA для переводчиков на Meta-Wiki подтверждают, что организация обучает новичков и публикует свои рекомендации открыто. В обсуждении вокруг инцидента также всплывали указания использовать популярные LLM для чернового перевода и правки лидов статей; 404 Media пишет, что раньше в инструкциях фигурировал и Grok, хотя позднее акцент сместили на другие модели.

В итоге Википедия не стала запрещать ИИ-переводы целиком, но решила ужесточить подход именно к переводчикам OKA. По правилам, которые цитирует 404 Media, если такой переводчик за шесть месяцев получает четыре корректно вынесенных предупреждения за непроверяемый контент, то при следующем нарушении его могут заблокировать без дополнительных предупреждений. А материалы, добавленные таким участником, могут удалить, если за них не возьмёт ответственность другой редактор с хорошей репутацией.

У самой OKA своя версия истории. Основатель организации Джонатан Циммерманн заявил, что переводчикам платят почасово, а не за количество статей, и что фиксированной нормы публикаций у них нет. По его словам, организация делает ставку на качество, признаёт, что ошибки случаются, и уже усиливает контроль: вводит второй независимый этап проверки через другую LLM, но не как замену человеку, а как дополнительный фильтр перед ручной верификацией.

Википедию атаковал портящий страницы JavaScript-червь

У Wikimedia Foundation 5 марта случился неприятный киберинцидент: по проектам прошёлся самораспространяющийся JavaScript-червь, из-за которого инженерам пришлось временно ограничить редактирование и срочно откатывать вредоносные правки. Важная оговорка: по уточнению фонда, вандализм затронул только Meta-Wiki, а не всю Википедию целиком.

Снаружи это выглядело довольно хаотично: редакторы начали замечать автоматические правки, скрытые скрипты и странные изменения на страницах, после чего Wikimedia перевела проекты в режим «только чтение».

Согласно странице фонда, проблемы начались около 18:36 по Москве, в 20:09 вики вернули в режим записи, а позже начали постепенно восстанавливать и пользовательские скрипты.

По предварительной картине, всё началось после срабатывания вредоносного скрипта, который хранился в русской версии Википедии на странице User:Ololoshka562/test.js и, как пишет BleepingComputer, был загружен ещё в марте 2024 года.

В Phabricator и в публикации BleepingComputer говорится, что скрипт, вероятно, активировали во время проверки пользовательского кода: после запуска он пытался прописать вредоносный загрузчик и в пользовательский common.js, и в глобальный MediaWiki:Common.js, чтобы цепочка распространялась дальше уже сама.

Если по-простому, схема была такой: один заражённый скрипт подхватывался в браузере редактора, а дальше пытался переписать JS-настройки этого пользователя и общий скрипт сайта (при наличии нужных прав). После этого любой, кто открывал такой общий скрипт, рисковал снова запустить ту же цепочку.

Параллельно червь ещё и правил случайные страницы, добавляя туда скрытый загрузчик. По оценке BleepingComputer, изменены были примерно 3996 страниц, а у около 85 пользователей оказались подменены файлы common.js, но это именно оценка издания, а не официальный итог Wikimedia.

Сама Wikimedia Foundation после инцидента заявила, что вредоносный код оставался активным 23 минуты. За это время он успел менять и удалять контент на Meta-Wiki, но постоянного ущерба, по словам фонда, не нанёс: материалы восстанавливают, признаков атаки именно на Википедию нет, как и доказательств утечки персональных данных.

RSS: Новости на портале Anti-Malware.ru