Тесты показали слабые места ChatGPT в научных заметках

Тесты показали слабые места ChatGPT в научных заметках

Тесты показали слабые места ChatGPT в научных заметках

Американская ассоциация содействия развитию науки (AAAS) решила проверить, может ли ChatGPT писать короткие научные заметки в стиле SciPak — это такие специальные брифы для журналистов, которые обычно готовит команда при журнале Science и сервисе EurekAlert.

Эксперимент длился целый год: с декабря 2023-го по декабрь 2024-го журналисты давали модели по одному–двум сложным научным исследованиям в неделю.

Задача была простая — пересказать их так, чтобы получилось удобно для коллег-журналистов: минимум терминов, чёткая структура и понятный контекст. В итоге ChatGPT обработал 64 работы.

Результат? В целом модель научилась «копировать» форму SciPak-заметки, но не дотянула по содержанию. По словам автора исследования, журналистки AAAS Абигейл Айзенштадт, тексты ChatGPT были слишком упрощёнными и часто неточными. Приходилось буквально перепроверять каждый факт, так что времени это отнимало не меньше, чем написать заметку с нуля.

 

Цифры тоже говорят сами за себя. Когда редакторов спросили, могли бы такие резюме затеряться среди настоящих SciPak-брифов, средняя оценка составила всего 2,26 балла из 5. «Увлекательность» текстов оценили ещё ниже — 2,14. И лишь одна работа за весь год получила от журналиста высший балл.

Чаще всего ChatGPT путал корреляцию и причинно-следственные связи, забывал упоминать важные ограничения исследований (например, что мягкие актуаторы работают очень медленно) и иногда слишком рассыпался в похвалах про «прорывы» и «новизну».

Авторы эксперимента подытожили: пока что ChatGPT не соответствует стандартам SciPak. Но полностью ставить крест на идее они не стали. AAAS отмечает, что к тестам можно вернуться, если модель серьёзно обновится. А в августе, напомним, как раз вышла GPT-5, в которой, к сожалению, нашли уязвимость.

iOS 27 попробует остановить мошенников прямо во время развода по телефону

Apple готовит для iOS 27 новый фреймворк Trust Insights, который должен помогать приложениям замечать, что пользователя прямо сейчас могут разводить мошенники. Причём речь не о классическом антивирусе, а о попытке поймать социальную инженерию в процессе, когда человек сам переводит деньги, меняет настройки аккаунта или отправляет данные.

Apple объясняет проблему просто: такие атаки сложно ловить автоматически, потому что действия выполняет сам пользователь, аутентифицированный и вроде бы легитимный.

Особенно это актуально на фоне скамов с техподдержкой, фейковыми сотрудниками ведомств, семейными ЧП и дипфейками.

Trust Insights будет в основном работать на устройстве и анализировать не содержание сообщений, писем или фотографий, а поведенческие сигналы: паттерны взаимодействия, время, контекст и базовые данные сенсоров.

Если система решит, что пользователя, возможно, инструктируют мошенники, она присвоит операции средний или высокий уровень риска.

 

После этого приложение сможет показать предупреждение, добавить задержку, запросить дополнительную проверку или усложнить выполнение опасного действия. Например, перед платежом, сменой данных аккаунта, отправкой сообщения, подписанием документа или использованием дорогих ресурсов вроде ИИ-инференса.

Apple подчёркивает, что Trust Insights не читает содержимое Фотографий, Сообщений и Почты. Данные анализируются локально, сразу отбрасываются, а на серверы Apple уходит только итоговое значение риска. Там его могут сопоставить с данными аккаунта и признаками необычной активности, после чего система вернёт финальную оценку.

Отключить Trust Insights можно будет в настройках, но Apple предусматривает период ожидания. Логика понятна: мошенник вполне может наказать жертве срочно выключить защиту, иначе деньги пропадут.

Для разработчиков это новый инструмент, который позволит не просто молча проводить операции, а вмешиваться в момент, когда пользователь уже почти наступил на цифровые грабли.

RSS: Новости на портале Anti-Malware.ru