Интервью с основателем поискового сервиса Blekko Ричем Скрента

Интервью с основателем поискового сервиса Blekko Ричем Скрента

Рич Скрента - один из основателей и руководитель нового сетевого начинания, поисковика Blekko. Одна из базовых его особенностей, заявленных разработчиками и идеологами проекта, состоит в предварительной обработке и очистке результатов поиска; таким образом создатели Blekko надеются победить неблагонадежные сайты и URL-спам. Журналист Интернет-издания V3.co.uk побеседовал с г-ном Скрента относительно особенностей и перспектив строящейся поисковой системы.



- Ваш подход к поиску основан на использовании лист-меток (slashtags). Как работает эта технология?
- Лист-метка - это список сайтов. Допустим, под заголовком "здоровье" составляется список доверенных, надежных ресурсов, посвященных соответствующей тематике; список базируется на отзывах пользователей. В настоящее время у нас имеется уже пара сотен лист-меток, и участники проекта постоянно создают новые - равно как и пополняют старые. В сущности это - классическая wiki-модель. Пользователи вправе редактировать лист-метки - добавлять новые ресурсы, изменять имеющиеся, - и со временем они могут получить приглашение войти в команду редакторов. Участники совместно работают над содержимым, постоянно повышая его качество.


- Ваш индекс не столь велик, как у Google. Сказывается ли это на качестве поиска?
- Действительно, в нашем индексе сейчас имеется только три миллиарда страниц - меньше, чем у Google, - но и этого уже вполне достаточно, если вы четко знаете, что ищете. При этом для повышения качества выдачи мы используем лист-метки: если в результатах поиска много мусора, то его можно без труда отфильтровать и показать посетителю в первую очередь не те сайты, позиции которых основываются исключительно на усилиях SEO-оптимизаторов, а те, которые отмечены сообществом пользователей как надежные и заслуживающие доверия.


- Различные приемы поисковой оптимизации ныне применяются повсеместно. Сильное ли воздействие они способны оказывать?
- Довольно существенное. Необходимо заметить, что в 2000 году алгоритм оценки страниц той же Google действительно был эффективен и полезен: тогда в Сети был миллиард страниц, и по большей части их создавали и поддерживали люди, желавшие помочь и принести пользу другим людям. Теперь, десять лет спустя, в Интернете насчитывается уже более ста миллиардов URL, и значительное количество ресурсов формируется либо людьми, слабо заинтересованными в качестве информации, либо вообще автоматами. Я помню, как служба Hotmail впервые объявила, что 95% всего объема электронной корреспонденции - это спам; что будет, когда 95% Интернет-ресурсов окажутся мусорными? Единственный выход - составить список доверенных источников.


- Насколько серьезна в настоящее время проблема веб-спама?
- Исключительно алгоритмический поиск выводит в выдачу значительные объемы 'серого' спама. Он не столь заметен и очевидно нежелателен, чтобы его блокировали соответствующие фильтры, но и не особенно полезен для посетителя - скорее наоборот. Алгоритм поиска не может отличить, например, статью настоящего квалифицированного врача от публикации полуграмотного компилятора, которому заплатили пару долларов за то, чтобы он соорудил 'нарезку' из нескольких источников, скажем, о диабете. Попробуйте поискать в Сети любую медицинскую информацию, и на первых местах в результатах вашего поиска обязательно окажутся мусорные ресурсы, оттесняющие на задний план действительно полезные сайты.


- Будь я спамером, я бы в первую очередь задумался о фальсификации данных в лист-метках. Предусмотрели ли вы соответствующую защиту?
- Поскольку мы используем wiki-модель, вся пользовательская активность протоколируется. Если мы видим, что кто-то зарегистрировался, добавил один ресурс сомнительного содержания и исчез, то мы уделим такому случаю особое внимание и не пропустим правку без предварительной модерации. Напротив, если кто-то уже не первый месяц (или даже не первый год) пополняет списки тысячами ресурсов безупречного качества, то его мнения и решения будут иметь для нас гораздо больший вес.


- На какой площадке вы размещаете свой проект?
- В нашем распоряжении имеется собственная система из ста серверов, она находится в Саннивейле. При необходимости мы сможем и увеличить вычислительные мощности.


- Будете ли вы предоставлять дополнительные службы - например, что-то вроде Google Apps?
- На данный момент проект Blekko - это 22 человека, которые занимаются сооружением поискового сервиса. В такой ситуации говорить о расширении функционала несколько преждевременно. Мы полностью сосредоточились на поисковике, и других планов у нас пока нет.


- А есть ли у вас планы извлечения прибыли от проекта?
- Пока у нас на сайте нет никакой рекламы. Сейчас главное - это сформировать аудиторию. Но реклама посредством поисковых служб - уже установившийся бизнес, а наша цель - предлагать пользователям, ищущим нужные им сведения, наиболее ценные и полезные результаты поиска.


- Вы говорили, что не собираетесь бороться с Google за место на рынке. В чем состоят ваши цели?
- Нам бы хотелось, чтобы посетители действительно извлекали пользу из работы с ресурсом. Как и любой новый поисковик, мы сейчас привлекаем много внимания, однако наше намерение - не только привлечь, но и удержать пользователей, чтобы они не только получили нужные им результаты сегодня, но и пришли за новой информацией завтра. У нас есть ряд новых функциональных возможностей, релевантные данные по множеству тем и постоянно расширяющийся (благодаря активной работе участников проекта) набор категорий. Я уверен: эта модель сработает.

V3.co.uk побеседовал с г-ном Скрента относительно особенностей и перспектив строящейся поисковой системы.

" />

ИИ превращает пару постов в Instagram в убедительный фишинг

Исследователи из Техасского университета в Арлингтоне и Государственного университета Луизиана показали, как несколько публичных постов в Instagram (принадлежит корпорации Meta, признанной экстремистской и запрещённой в России) можно превратить во вполне убедительные фишинговые письма.

Злоумышленнику достаточно посмотреть открытый профиль: фото, подписи, поездки, хобби, дни рождения, отношения, а дальше генеративный ИИ сам соберёт письмо.

В рамках эксперимента исследователи сгенерировали около 18 тыс. фишинговых писем с помощью пяти больших языковых моделей, включая GPT-4, Claude 3 Haiku, Gemini 1.5 Flash, Gemma 7B и Llama 3.3. Для персонализации использовалась публичная активность 200 пользователей Instagram.

 

Письма строились вокруг разных приёмов социальной инженерии: приманки, запугивания, имитации доверенного контакта, выгодного обмена, эмоционального давления и других сценариев. В результате ИИ вставлял в сообщения детали, которые делают фишинг особенно эффективным: упоминания поездок, местных событий, интересов, личных дат или недавней активности.

Самыми убедительными в тестах оказались письма, созданные GPT-4 и Claude. Они получили высокие оценки по качеству языка, уровню персонализации, эмоциональному воздействию и технической проработке. Более того, ИИ-сообщения выглядели заметно естественнее и персональнее, чем реальные фишинговые письма из датасета APWG eCrime Exchange.

Проверяли это не только на метриках, но и на людях. В эксперименте участвовали 70 человек, которые сравнивали ИИ-фишинг с реальными вредоносными письмами. Результат ожидаемо неприятный: сообщения, сгенерированные ИИ, участникам было сложнее распознать. В отдельных случаях они казались менее подозрительными, чем легитимные письма из исследования.

Ещё один важный вывод: много данных атакующему не нужно. Основной контекст для персонализации обычно находился уже в первых нескольких постах. После пяти публикаций прирост полезной информации начинал снижаться, а 10-15 постов оказалось достаточно, чтобы массово делать таргетированный фишинг.

Защитные механизмы ИИ-моделей тоже не всегда спасали. Исследователи обходили ограничения мягкими формулировками: вместо «обмани пользователя» — «персонализируй сообщение», вместо «фишинг» — «дружеское письмо». В итоге часть систем модерации такие запросы пропускала.

Цена атаки тоже смешная: одно письмо обходилось меньше чем в цент и генерировалось за секунды. И вот это уже главный неприятный момент. Персональный фишинг раньше был дорогим и ручным, а теперь превращается в конвейер.

RSS: Новости на портале Anti-Malware.ru