В Интернет попали истории болезни 300 тысяч жителей Калифорнии

В Интернет попали истории болезни 300 тысяч жителей Калифорнии

Аналитический центр InfoWatch зарегистрировал очередную утечку медицинских данных. Истории болезни почти 300 тысяч жителей штата Калифорния были выложены в Интернет. Компания, оператор данных, утверждает, что она была уверена в том, что информация находилась под защитой.



Данные жителей Южной Калифорнии были размещены на веб-сайте для удобства пользования сотрудниками компании. Но, как оказалось, информация хранилась в открытом доступе. Среди прочих документов в сети были выложены номера социального страхования граждан.

«В данном случае информация не была защищена паролем, а с учетом того, насколько она важна, само содержание тоже стоило зашифровать, – отметил представитель некоммерческого информационного центра Сан-Диего Privacy Rights Clearinghouse. - И, честно говоря, оба способа защиты не представляют собой ничего сложного».

Эта утечка данных – последний в серии крупных недочетов в системе безопасности Калифорнии. Ранее в этом году страховщик Health Net заявил, что исчезли жесткие диски, где была информация об 1,9 млн. клиентов.

Представитель Privacy Rights Clearinghouse сказала, что с 2005 года в Интернет опубликованы более чем полмиллиарда историй болезни по всей стране.

Инцидент комментирует главный аналитик InfoWatch Николай Николаевич Федотов: «При каждой из подобных утечек оператор несёт убытки, с которыми не может мириться. В отличие, например, от банков, для которых убытки от кардеров вполне терпимы в общем балансе. И власти находятся под постоянным общественным давлением как несущие часть ответственности за утечки. Очевидно, долго так продолжаться не может. Меры будут приняты. Но исключить утечки совсем не представляется возможным. Поняв это, власти пойдут другим путём...»

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru