Тесты показали слабые места ChatGPT в научных заметках

Тесты показали слабые места ChatGPT в научных заметках

Тесты показали слабые места ChatGPT в научных заметках

Американская ассоциация содействия развитию науки (AAAS) решила проверить, может ли ChatGPT писать короткие научные заметки в стиле SciPak — это такие специальные брифы для журналистов, которые обычно готовит команда при журнале Science и сервисе EurekAlert.

Эксперимент длился целый год: с декабря 2023-го по декабрь 2024-го журналисты давали модели по одному–двум сложным научным исследованиям в неделю.

Задача была простая — пересказать их так, чтобы получилось удобно для коллег-журналистов: минимум терминов, чёткая структура и понятный контекст. В итоге ChatGPT обработал 64 работы.

Результат? В целом модель научилась «копировать» форму SciPak-заметки, но не дотянула по содержанию. По словам автора исследования, журналистки AAAS Абигейл Айзенштадт, тексты ChatGPT были слишком упрощёнными и часто неточными. Приходилось буквально перепроверять каждый факт, так что времени это отнимало не меньше, чем написать заметку с нуля.

 

Цифры тоже говорят сами за себя. Когда редакторов спросили, могли бы такие резюме затеряться среди настоящих SciPak-брифов, средняя оценка составила всего 2,26 балла из 5. «Увлекательность» текстов оценили ещё ниже — 2,14. И лишь одна работа за весь год получила от журналиста высший балл.

Чаще всего ChatGPT путал корреляцию и причинно-следственные связи, забывал упоминать важные ограничения исследований (например, что мягкие актуаторы работают очень медленно) и иногда слишком рассыпался в похвалах про «прорывы» и «новизну».

Авторы эксперимента подытожили: пока что ChatGPT не соответствует стандартам SciPak. Но полностью ставить крест на идее они не стали. AAAS отмечает, что к тестам можно вернуться, если модель серьёзно обновится. А в августе, напомним, как раз вышла GPT-5, в которой, к сожалению, нашли уязвимость.

В России могут обязать предустанавливать отечественный ИИ на смартфоны

В России рассматривают возможность обязать производителей предустанавливать отечественные ИИ-сервисы на смартфоны и другую электронику. Эту норму могут включить в готовящийся закон о регулировании искусственного интеллекта, сообщают «Известия» со ссылкой на материалы правительства.

По данным издания, Минцифры должно представить документ на согласование в правительство к концу февраля. Детали инициативы пока прорабатываются, но идея в целом продолжает логику уже действующего закона о предустановке российского ПО, который применяется с 2021 года.

В аппарате вице-премьера Дмитрия Григоренко подчеркнули, что предустановка отечественных сервисов — один из способов укрепления технологической независимости. По их словам, у России уже есть собственные маркетплейсы, браузеры, антивирусы и сервисы госуслуг, а теперь — и большие языковые модели. Пользователи должны иметь возможность пользоваться такими решениями по умолчанию.

Сейчас ИИ в смартфонах постепенно становится стандартом. По оценке Mobile Research Group, в 2025 году он был предустановлен примерно на 7% продаваемых в России устройств, а к концу 2026-го доля может вырасти до 10%. Наиболее активно ИИ-функции развивают Samsung и ряд китайских производителей.

Участники рынка считают, что технически внедрить такую норму возможно — опыт обязательной предустановки российского софта уже есть. Однако эксперты предупреждают: отечественным разработчикам придётся конкурировать с зарубежными ИИ-продуктами, которые уже встроены в устройства и активно развиваются.

По словам специалистов, успех будет зависеть от качества решений. Если российские ИИ-сервисы предложат удобные голосовые ассистенты, продвинутую обработку фото и видео, работу офлайн или глубокую интеграцию с популярными сервисами, они смогут завоевать аудиторию. В противном случае пользователи просто удалят ненужные приложения — как это часто происходит и сейчас.

Некоторые эксперты отмечают, что россияне уже активно пользуются ИИ на смартфонах, просто не всегда это осознают — например, общаясь с чат-ботами банков или госструктур.

Будет ли предустановка обязательной и в каком именно виде — станет ясно после публикации законопроекта. Пока речь идёт о проработке механизма и сборе предложений.

RSS: Новости на портале Anti-Malware.ru