ChatGPT ловко строит неологизмы, но значения слов может и выдумать

ChatGPT ловко строит неологизмы, но значения слов может и выдумать

ChatGPT ловко строит неологизмы, но значения слов может и выдумать

Профессор Канзасского университета протестировал лингвистические способности ChatGPT, чтобы выяснить, как ИИ может помочь людям в решении языковых задач, не дублируя то, с чем они и сами превосходно справляются.

Как оказалось, могучий чат-бот обладает большим словарным запасом и хорошо выявляет взаимосвязи, используя вместо языковой интуиции статистический анализ по шаблонам, обнаруженным в обучающих данных.

Вместе с тем, чтобы не разочаровать собеседника, ChatGPT иногда выдавал правдоподобные, но неверные и даже бессмысленные ответы. Результаты эксперимента еще раз подтвердили, что ИИ склонен к галлюцинациям, то есть на его результаты нельзя полностью полагаться.

Вначале специалист по психолингвистике Майкл Витевич (Michael Vitevitch) предложил собеседнику определить значение 52 англоязычных архаизмов, включив в список такие диковинки, как upknocker — наемник, который стуком в дверь и окно поднимал рабочих перед сменой (во времена, когда еще не было будильников).

ИИ-ассистент выдал 36 правильных ответов, в 11 случаях заявил, что не знает, так как слово, видимо, вышло из употребления, трижды подобрал значения из других языков, а два раза сгенерировал явный вымысел.

Исследователь также проверил, насколько умело ИИ преодолевает фонетический барьер. К испанским словам нужно было подобрать созвучные английские.

Запросы зачастую возвращали результат на испанском языке: ChatGPT руководствовался межъязыковыми статистическими ассоциациями, тогда как человек в этом случае включает логику.

 

На следующем этапе Витевич проверил реакцию собеседника на псевдослова, используемые в когнитивной психологии с целью узнать, как человек получает, запоминает и обрабатывает языковую информацию.

ИИ-ассистента попросили оценить по шкале от 1 («плохо») до 7 («хорошо»), достаточно ли по-английски звучат вымышленные слова и насколько они пригодны для маркетинговых целей. Испытуемый, используя частотность звукосочетаний, справился с задачей не хуже носителей языка.

Под занавес ChatGPT продемонстрировал возможности словообразования — придумывал отсутствующие в английском языке термины для понятий, довольно успешно применяя контаминацию (объединение двух похожих выражений или форм — вроде «играть значение») и словосложение (объединение слов или их основ — «долгоиграющий», «водопад»).

 

Экспериментатора больше всего позабавило rousrage (возмущение из-за побудки), от rouse (пробуждать) и rage (гнев, ярость). Ему также понравились еще три неологизма:

  • prideify — гордиться чужими успехами (от pride, «гордость»; по аналогии с beautify, «воспевать»);
  • lexinize — «лексинизировать» (о псевдослове, которое начинает обретать смысл);
  • stumblop — упасть, споткнувшись (от stumble + plop, «споткнуться» и «шлепнуться»).
AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Вышел первый релиз СУБД Arenadata DB на базе Greengage

Группа Arenadata представила первый релиз своей MPP-СУБД Arenadata DB (ADB), собранный на основе открытого проекта Greengage. Это важный шаг, который закрепляет полную независимость развития продукта от технологии Greenplum, ранее служившей его основой.

В рамках перехода команда настроила CI/CD-процессы для сборки ADB из репозиториев Greengage и обновила всю техническую документацию. Новый релиз Arenadata DB 6.29.0 стал ключевым этапом, который создаёт фундамент для дальнейшего развития системы.

По словам технического директора Arenadata Дмитрия Плужникова, после ухода Greenplum из open source было важно сохранить контроль над развитием ядра:

«Теперь мы можем самостоятельно вносить изменения в код, решать накопленные проблемы и развивать технологию вместе с профессиональным сообществом».

Одним из первых практических результатов перехода стало устранение проблемы «брошенных» файлов (orphaned files) — давнего бага, унаследованного от PostgreSQL и долго не исправлявшегося в апстриме Greenplum.

Переход на Greengage даёт Arenadata возможность параллельно поддерживать две линии развития продукта:

  • текущую — ADB 6, с сохранением обратной совместимости;
  • и новую — ADB 7, релиз которой запланирован на конец 2025 года.

Проект Greengage, на котором теперь основана СУБД, развивается как самостоятельное решение с открытым кодом под лицензией Apache 2.0. Arenadata поддерживает открытую модель разработки и уже запустила процедуру приёма внешних коммитов, позволяющую сторонним разработчикам вносить вклад в улучшение системы.

Arenadata DB остаётся массивно-параллельной реляционной СУБД для работы с большими объёмами данных — от десятков до сотен терабайт. Система рассчитана на выполнение сложных аналитических запросов и построение корпоративных хранилищ с горизонтальной масштабируемостью.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru