Тесты показали слабые места ChatGPT в научных заметках

Тесты показали слабые места ChatGPT в научных заметках

Тесты показали слабые места ChatGPT в научных заметках

Американская ассоциация содействия развитию науки (AAAS) решила проверить, может ли ChatGPT писать короткие научные заметки в стиле SciPak — это такие специальные брифы для журналистов, которые обычно готовит команда при журнале Science и сервисе EurekAlert.

Эксперимент длился целый год: с декабря 2023-го по декабрь 2024-го журналисты давали модели по одному–двум сложным научным исследованиям в неделю.

Задача была простая — пересказать их так, чтобы получилось удобно для коллег-журналистов: минимум терминов, чёткая структура и понятный контекст. В итоге ChatGPT обработал 64 работы.

Результат? В целом модель научилась «копировать» форму SciPak-заметки, но не дотянула по содержанию. По словам автора исследования, журналистки AAAS Абигейл Айзенштадт, тексты ChatGPT были слишком упрощёнными и часто неточными. Приходилось буквально перепроверять каждый факт, так что времени это отнимало не меньше, чем написать заметку с нуля.

 

Цифры тоже говорят сами за себя. Когда редакторов спросили, могли бы такие резюме затеряться среди настоящих SciPak-брифов, средняя оценка составила всего 2,26 балла из 5. «Увлекательность» текстов оценили ещё ниже — 2,14. И лишь одна работа за весь год получила от журналиста высший балл.

Чаще всего ChatGPT путал корреляцию и причинно-следственные связи, забывал упоминать важные ограничения исследований (например, что мягкие актуаторы работают очень медленно) и иногда слишком рассыпался в похвалах про «прорывы» и «новизну».

Авторы эксперимента подытожили: пока что ChatGPT не соответствует стандартам SciPak. Но полностью ставить крест на идее они не стали. AAAS отмечает, что к тестам можно вернуться, если модель серьёзно обновится. А в августе, напомним, как раз вышла GPT-5, в которой, к сожалению, нашли уязвимость.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Тест Softline: Яндекс Браузер выявил 85 из 100 фишинговых сайтов

Эксперты ГК Softline провели ежегодное исследование, чтобы проверить, насколько хорошо популярные браузеры распознают фишинговые сайты — страницы, с помощью которых злоумышленники крадут личные данные пользователей. В тесте участвовали Chrome, Яндекс Браузер, Firefox, Opera, Edge, Safari на iOS, а также предустановленные Samsung Internet и Mi Browser на Android.

Согласно результатам проверки, Яндекс Браузер оказался самым эффективным: десктопная версия обнаружила 85 из 100 мошеннических сайтов, а мобильная — более 75.

Для сравнения, Chrome с антифишинговым расширением на десктопе выявил 44 угрозы, а без него — всего 8. Остальные браузеры показали следующие результаты:

  • Safari — 9 выявленных страниц,
  • Firefox — 8,
  • Opera — 6,
  • Edge — 5.

На платформах Android показатели оказались самыми низкими: Mi Browser определил два фишинговых сайта, а Samsung Internet — всего один. При этом браузеры на iOS продемонстрировали заметное улучшение по сравнению с прошлым годом.

Как проводилось исследование

Тестирование проходило в условиях, максимально приближенных к реальным. На смартфонах использовались физические устройства, а не эмуляторы. В основу легла выборка из 100 актуальных фишинговых страниц, предоставленных сервисом CyberDef от Infosecurity. Сайты с невалидными сертификатами исключались, чтобы результаты не искажались.

Особое внимание уделялось скорости реакции браузеров. Эксперты отправляли на проверку новые фишинговые сайты в течение нескольких часов после их обнаружения — ведь такие страницы живут недолго и часто исчезают уже в первый день.

Кого чаще всего подделывают

Почти половина (46%) фишинговых сайтов имитировала банки и инвестиционные платформы, ещё 13% — страницы соцсетей и мессенджеров, а 12% — опросы и голосования.

По словам специалистов, злоумышленники активно эксплуатируют известные бренды и актуальные темы вроде искусственного интеллекта и криптовалют, а схемы становятся всё сложнее.

«Сегодня мошеннические кампании часто состоят из нескольких этапов: сначала пользователя заманивают под видом розыгрыша или курса, а потом под предлогом оплаты или подтверждения выманивают деньги и данные. Чтобы казаться надёжными, такие сайты нередко показывают фейковые уведомления о “защищённом соединении”», — отмечают эксперты Softline.

Что используют браузеры для защиты

Современные браузеры применяют разные технологии против фишинга. Например, Safe Browsing в Chrome, SmartScreen в Edge и нейросетевые фильтры в Яндекс Браузере.

В отличие от старых систем, которые полагались на «чёрные списки» сайтов, новые механизмы анализируют содержимое страницы в момент загрузки, что помогает быстрее реагировать на появление фальшивых ресурсов.

Главный вывод исследования: даже при развитии встроенных технологий защиты пользователям стоит оставаться внимательными и не вводить личные данные на сомнительных сайтах, особенно если ссылка пришла в сообщении или письме.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru