Тесты показали слабые места ChatGPT в научных заметках

Тесты показали слабые места ChatGPT в научных заметках

Тесты показали слабые места ChatGPT в научных заметках

Американская ассоциация содействия развитию науки (AAAS) решила проверить, может ли ChatGPT писать короткие научные заметки в стиле SciPak — это такие специальные брифы для журналистов, которые обычно готовит команда при журнале Science и сервисе EurekAlert.

Эксперимент длился целый год: с декабря 2023-го по декабрь 2024-го журналисты давали модели по одному–двум сложным научным исследованиям в неделю.

Задача была простая — пересказать их так, чтобы получилось удобно для коллег-журналистов: минимум терминов, чёткая структура и понятный контекст. В итоге ChatGPT обработал 64 работы.

Результат? В целом модель научилась «копировать» форму SciPak-заметки, но не дотянула по содержанию. По словам автора исследования, журналистки AAAS Абигейл Айзенштадт, тексты ChatGPT были слишком упрощёнными и часто неточными. Приходилось буквально перепроверять каждый факт, так что времени это отнимало не меньше, чем написать заметку с нуля.

 

Цифры тоже говорят сами за себя. Когда редакторов спросили, могли бы такие резюме затеряться среди настоящих SciPak-брифов, средняя оценка составила всего 2,26 балла из 5. «Увлекательность» текстов оценили ещё ниже — 2,14. И лишь одна работа за весь год получила от журналиста высший балл.

Чаще всего ChatGPT путал корреляцию и причинно-следственные связи, забывал упоминать важные ограничения исследований (например, что мягкие актуаторы работают очень медленно) и иногда слишком рассыпался в похвалах про «прорывы» и «новизну».

Авторы эксперимента подытожили: пока что ChatGPT не соответствует стандартам SciPak. Но полностью ставить крест на идее они не стали. AAAS отмечает, что к тестам можно вернуться, если модель серьёзно обновится. А в августе, напомним, как раз вышла GPT-5, в которой, к сожалению, нашли уязвимость.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

ФСТЭК России готовит стандарт безопасной разработки систем ИИ

Выступая на BIS Summit 2025, первый замдиректора ФСТЭК России Виталий Лютиков сообщил, что регулятор планирует до конца года вынести на обсуждение проект стандарта привнесения аспекта безопасности в разработку ИИ-систем.

Новое методическое руководство будет представлено как дополнение к действующим нормативам по безопасной разработке программного обеспечения, в том числе ГОСТ Р 56939-2024.

У ИИ-моделей есть своя специфика с точки зрения ИБ — склонность к галлюцинациям, риск утечки конфиденциальных данных и злоупотреблений через манипуляцию промптами, возможность вмешательства в алгоритмы машинного обучения, и ее следует учитывать при создании подобных инструментов.

Приказ ФСТЭК России № 117 от 11.04.2025 об усилении защиты данных в ГИС (заработает с 1 марта будущего года) содержит раздел об ИИ-технологиях, однако изложенные в нем требования по безопасности ограничены эксплуатацией.

Вместе с тем, как и в случае с обычным софтом, не менее важно обезопасить ИИ-системы еще на стадии разработки (такой подход известен как security by design). Новая инициатива регулятора призвана восполнить этот пробел.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru