Ошибка сотрудника привела к утечке данных

Ошибка сотрудника привела к утечке данных

Крупная рекрутинговая компания Hays сообщила о масштабной утечке данных – один из сотрудников Hays по ошибке разослал через электронную почту архив с информацией о заработках тысяч людей, работающих на подрядчиков банка Royal Bank of Scotland.



По словам представителей Hays, инцидент произошел несколько дней назад. В скомпрометированном архиве были данные с финансовой информацией около 3 тыс. человек, работающих на примерно 800 фирм, осуществляющих различные услуги для Royal Bank of Scotland в таких сферах, как кадровые ресурсы и управление рисками, сообщает CNews

Как отмечают аналитики, данная утечка должна стать одной из наиболее заметных за последние годы в этой сфере. Hays заявила о том, что начала собственное расследование инцидента и займется усилением правил безопасности, чтобы не допустить повторения подобных случаев в будущем.

Для банка Royal Bank of Scotland, представители которого не несут ответственности за саму утечку, она также может иметь серьезные последствия. Из скомпрометированного отчета следует, что многие подрядчики банка имели весьма завышенную оплату, которая в некоторых случаях доходит до 2 тыс. фунтов стерлингов в день. При этом, более 80% банка принадлежит правительству Британии, а оплата его сотрудников в значительной степени берется из денег налогоплательщиков.

«В данном типичном случае мы видим, как простая ошибка одного из сотрудников компании может привести к весьма серьезным последствиям для целого ряда компаний и организаций. Если рекрутинговая фирма Hays, скорее всего, сможет отделаться лишь небольшим штрафом или избежать даже его, то для Royal Bank of Scotland данная утечка наверняка станет серьезной неприятностью. Следует отметить, что современные системы защиты от утечек в большинстве случаев позволяют избежать подобных инцидентов», - отметил Александр Ковалев, директор по маркетингу компании SecurIT, российского разработчика DLP-решений.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru