Интервью с основателем поискового сервиса Blekko Ричем Скрента

Интервью с основателем поискового сервиса Blekko Ричем Скрента

Рич Скрента - один из основателей и руководитель нового сетевого начинания, поисковика Blekko. Одна из базовых его особенностей, заявленных разработчиками и идеологами проекта, состоит в предварительной обработке и очистке результатов поиска; таким образом создатели Blekko надеются победить неблагонадежные сайты и URL-спам. Журналист Интернет-издания V3.co.uk побеседовал с г-ном Скрента относительно особенностей и перспектив строящейся поисковой системы.



- Ваш подход к поиску основан на использовании лист-меток (slashtags). Как работает эта технология?
- Лист-метка - это список сайтов. Допустим, под заголовком "здоровье" составляется список доверенных, надежных ресурсов, посвященных соответствующей тематике; список базируется на отзывах пользователей. В настоящее время у нас имеется уже пара сотен лист-меток, и участники проекта постоянно создают новые - равно как и пополняют старые. В сущности это - классическая wiki-модель. Пользователи вправе редактировать лист-метки - добавлять новые ресурсы, изменять имеющиеся, - и со временем они могут получить приглашение войти в команду редакторов. Участники совместно работают над содержимым, постоянно повышая его качество.


- Ваш индекс не столь велик, как у Google. Сказывается ли это на качестве поиска?
- Действительно, в нашем индексе сейчас имеется только три миллиарда страниц - меньше, чем у Google, - но и этого уже вполне достаточно, если вы четко знаете, что ищете. При этом для повышения качества выдачи мы используем лист-метки: если в результатах поиска много мусора, то его можно без труда отфильтровать и показать посетителю в первую очередь не те сайты, позиции которых основываются исключительно на усилиях SEO-оптимизаторов, а те, которые отмечены сообществом пользователей как надежные и заслуживающие доверия.


- Различные приемы поисковой оптимизации ныне применяются повсеместно. Сильное ли воздействие они способны оказывать?
- Довольно существенное. Необходимо заметить, что в 2000 году алгоритм оценки страниц той же Google действительно был эффективен и полезен: тогда в Сети был миллиард страниц, и по большей части их создавали и поддерживали люди, желавшие помочь и принести пользу другим людям. Теперь, десять лет спустя, в Интернете насчитывается уже более ста миллиардов URL, и значительное количество ресурсов формируется либо людьми, слабо заинтересованными в качестве информации, либо вообще автоматами. Я помню, как служба Hotmail впервые объявила, что 95% всего объема электронной корреспонденции - это спам; что будет, когда 95% Интернет-ресурсов окажутся мусорными? Единственный выход - составить список доверенных источников.


- Насколько серьезна в настоящее время проблема веб-спама?
- Исключительно алгоритмический поиск выводит в выдачу значительные объемы 'серого' спама. Он не столь заметен и очевидно нежелателен, чтобы его блокировали соответствующие фильтры, но и не особенно полезен для посетителя - скорее наоборот. Алгоритм поиска не может отличить, например, статью настоящего квалифицированного врача от публикации полуграмотного компилятора, которому заплатили пару долларов за то, чтобы он соорудил 'нарезку' из нескольких источников, скажем, о диабете. Попробуйте поискать в Сети любую медицинскую информацию, и на первых местах в результатах вашего поиска обязательно окажутся мусорные ресурсы, оттесняющие на задний план действительно полезные сайты.


- Будь я спамером, я бы в первую очередь задумался о фальсификации данных в лист-метках. Предусмотрели ли вы соответствующую защиту?
- Поскольку мы используем wiki-модель, вся пользовательская активность протоколируется. Если мы видим, что кто-то зарегистрировался, добавил один ресурс сомнительного содержания и исчез, то мы уделим такому случаю особое внимание и не пропустим правку без предварительной модерации. Напротив, если кто-то уже не первый месяц (или даже не первый год) пополняет списки тысячами ресурсов безупречного качества, то его мнения и решения будут иметь для нас гораздо больший вес.


- На какой площадке вы размещаете свой проект?
- В нашем распоряжении имеется собственная система из ста серверов, она находится в Саннивейле. При необходимости мы сможем и увеличить вычислительные мощности.


- Будете ли вы предоставлять дополнительные службы - например, что-то вроде Google Apps?
- На данный момент проект Blekko - это 22 человека, которые занимаются сооружением поискового сервиса. В такой ситуации говорить о расширении функционала несколько преждевременно. Мы полностью сосредоточились на поисковике, и других планов у нас пока нет.


- А есть ли у вас планы извлечения прибыли от проекта?
- Пока у нас на сайте нет никакой рекламы. Сейчас главное - это сформировать аудиторию. Но реклама посредством поисковых служб - уже установившийся бизнес, а наша цель - предлагать пользователям, ищущим нужные им сведения, наиболее ценные и полезные результаты поиска.


- Вы говорили, что не собираетесь бороться с Google за место на рынке. В чем состоят ваши цели?
- Нам бы хотелось, чтобы посетители действительно извлекали пользу из работы с ресурсом. Как и любой новый поисковик, мы сейчас привлекаем много внимания, однако наше намерение - не только привлечь, но и удержать пользователей, чтобы они не только получили нужные им результаты сегодня, но и пришли за новой информацией завтра. У нас есть ряд новых функциональных возможностей, релевантные данные по множеству тем и постоянно расширяющийся (благодаря активной работе участников проекта) набор категорий. Я уверен: эта модель сработает.

V3.co.uk побеседовал с г-ном Скрента относительно особенностей и перспектив строящейся поисковой системы.

" />

OOXML — фикция: LibreOffice обвинила Microsoft в манипуляциях

Проблемы совместимости остаются одной из главных причин, по которым пользователи не спешат переходить с Microsoft Office на LibreOffice. Формально всё работает, но на практике время от времени всплывают странности с вёрсткой, форматированием и отображением данных. И, как считают в The Document Foundation (TDF), дело тут вовсе не в LibreOffice.

Фонд, стоящий за LibreOffice, снова выступил с жёсткой критикой Microsoft. В блоге Итало Виньоли — одного из основателей TDF — корпорация из Редмонда обвиняется в том, что она игнорирует интересы отрасли ради собственных коммерческих целей.

По его словам, утверждение «OOXML — это стандарт, и его просто нужно принять» выглядит, мягко говоря, странно.

Виньоли настаивает: Office Open XML (OOXML) не может считаться полноценным стандартом, пока Microsoft не готова радикально переработать сами приложения Office. В качестве примера он напомнил о давней проблеме Excel с автопреобразованием данных — истории, которая напрямую затронула научное сообщество.

Excel годами автоматически превращал текстовые значения в даты. Для обычных таблиц это удобно, но для генетиков — катастрофа. Названия генов вроде MARCH1, SEPT1 или DEC1 Excel воспринимал как даты и превращал их в «1-Mar», «1-Sep» и «1-Dec».

В 2016 году журнал Genome Biology проанализировал почти 3,6 тысячи научных работ с Excel-файлами и выяснил, что примерно в каждой пятой были ошибки, вызванные именно автозаменой форматов.

Долгое время Microsoft считала проблему нишевой и не давала возможность отключить такое поведение. Лишь в 2023 году компания добавила соответствующую настройку; уже после того, как Комитет по номенклатуре генов человека (HGNC) был вынужден переименовать около 27 генов, чтобы избежать ошибок. К тому моменту ущерб для исследований уже был нанесён.

По словам Виньоли, OOXML «открыт» лишь формально. Спецификация формата занимает около 7 000 страниц, что делает полноценную и корректную реализацию сторонними разработчиками почти невозможной.

Кроме того, Microsoft Office сам не использует строгую версию стандарта (Strict OOXML), предпочитая так называемый Transitional-вариант. В нём до сих пор есть зависимости от старых, проприетарных форматов и поведения древних версий Word — вплоть до элементов с названиями вроде autoSpaceLikeWord95 или shapeLayoutLikeWW8.

Отдельно Виньоли критикует рекомендации использовать Windows Metafile для графики вместо открытых и кросс-платформенных форматов вроде SVG.

Для пользователей всё это выливается в знакомую проблему: документы между Office и LibreOffice открываются, но не всегда так, как ожидалось. Для TDF же это очередное подтверждение того, что формат Office по-прежнему работает как инструмент удержания пользователей внутри экосистемы Microsoft.

Спор вокруг OOXML длится уже много лет, и новый выпад со стороны LibreOffice ясно показывает: вопрос совместимости и «открытых стандартов» по-прежнему далёк от закрытия.

RSS: Новости на портале Anti-Malware.ru