В поисковиках найдется все?

Июль 26, 2011

Сейчас в рунете широко обсуждается появление в открытом доступе СМС и других данных, которые не должны были стать публичными. Вокруг этой темы возникла даже легкая паника. Чтобы в дальнейшем не происходило подобных вещей, представитель Яндекса Владимир Иванов решил рассказать владельцам сайтов и вебмастерам, что нужно сделать и на что обратить внимание.

Прежде всего личную информацию посетителей сайта необходимо защитить, например, закрыть паролем. Если же такая информация никак не защищена, она запросто может стать доступна всем пользователям сети. Для этого достаточно оставить где-нибудь в интернете ссылку на страницу пользователя — хоть на страницу заказа, хоть на страницу регистрации.

Вторая важная вещь — необходимо запретить поисковым роботам индексировать страницы сайтов с информацией, которая не должна стать публичной. Для этого существует файл robots.txt. Это текстовый файл, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности. То есть владелец сайта или вебмастер всегда может позаботиться о том, чтобы поисковые роботы обходили стороной страницы, содержимое которых не должно попасть в поисковые системы. Проверить, какие страницы сайта проиндексированы Яндексом, можно с помощью сервиса Яндекс.Вебмастер.

Чтобы все понимали, как данные попадают в поисковики, давайте проследим, что происходит с веб-страницей от момента ее создания до попадания в результаты поиска.

Итак, страница появилась на сайте. Не важно, статический ли это html или динамически созданная серверным приложением страница. Важно, что у нее есть текстовое содержимое, которое могут читать пользователи и индексировать поисковые системы.

Разместив в интернете свою страницу, вебмастер ждет посетителей. Как он может рассказать людям о ней? Конечно, он отправит запрос на индексирование страницы поисковым системам. Возможно, отправит ссылку друзьям и знакомым, сократит ее и выложит в Твиттер, другие блоги и соцсети. Он может поставить ссылку на эту страницу и в других местах, уже известных поисковым системам, чтобы роботы быстрее ее нашли.

Итак, на страничку не зашел еще ни один живой человек, но про нее уже могут знать тысячи программ по всему интернету:

• поисковые системы, куда вебмастер отправил ссылку вручную;

• блог-платформы и сокращатели ссылок;

• поисковые системы, которые переиндексировали страницы с ссылками на эту (а зачастую это происходит очень быстро);

• всевозможные анализаторы и подписчики RSS (если на сайте есть RSS), причем не только через RSS сайта, где расположена страничка, но и через RSS блогов, агрегаторов, блогов агрегаторов, агрегаторов блогов, агрегаторов агрегаторов и так далее;

• компании-владельцы интернет-мессенджеров и провайдеры почтовых сервисов.

Если у странички стандартное имя, например, /admin или /login, ее быстро найдут всевозможные сканеры уязвимостей, которые постоянно обходят интернет. Про нее могут знать интернет-провайдеры всех тех систем, которые мы перечислили выше, провайдер самого сайта и все провайдеры по пути. Не в последнюю очередь про нее могут знать сотрудники спецслужб, использующие системы СОРМ. Иначе говоря, к этому моменту про новую страницу знает уже половина «роботной» части мирового интернета.

И только теперь на страницу заходит первый пользователь. Например, сидя в интернет-кафе, человек кликнул по ссылке в Твиттере и перешел на страницу. Конечно, этот клик зафиксировал javascript системы статистики сайта — в данном случае Твиттера. Как правило, пользователь попадает на страницу через сервис сокращения ссылок, и переход осядет в логах этого сервиса. Дальше браузер открывает страницу и начинает загружать объекты — картинки, анимацию, скрипты, css, рекламу, коды счетчиков и систем статистики. Если в браузере установлен антифишинговый или антивирусный плагин (собственный есть почти во всех браузерах и почти везде включен, а некоторые антивирусные компании еще добавляют свой), он отправляет адрес посещенной страницы на проверку. В браузер могут быть встроены и другие плагины. Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер. Бывает так, что трафик пользователей в публичных местах пропускается через прокси-сервер — для защиты от атак, экономии IP-адресов или ускорения загрузки страниц. В этом случае все указанные взаимодействия пройдут через прокси-сервер, и он тоже узнает о странице.

Если на страничке есть картинки или flash-объекты с других ресурсов, то о странице будут знать все эти ресурсы. При наличии на странице iframe о ней будет известно системе показа рекламы или сервисам других систем, загруженных через iframe. Если вебмастер использовал скрипты из внешней библиотеки, счетчики и системы сбора статистики, то о новой страничке будут знать все эти сервисы и их провайдеры. Данные получат прокси-серверы и серверы антивирусной и антифишинговой систем, встроенных в браузер. А также юноша, сидящий в кафе за соседним столиком и недавно прочитавший в молодежном журнале, как просматривать чужой трафик в публичных wifi-сетях.

Итак, теперь можно сказать, что почти весь мировой интернет знает про существование этой ссылки. Дальше информация о таких ссылках анализируется и проверяется, сравнивается и обсчитывается, агрегируется и консолидируется многими-многими системами. Происходит это довольно быстро. Бывает — всего за несколько секунд. В конечном итоге многие такие ссылки так или иначе становятся известными поисковым системам.

В этом месте хочу еще раз обратить внимание: поисковая система получает из разных источников только ссылки, а не содержимое страницы. Сколько может быть этих ссылок? Очень много. Например, еще в 2008 году Google сообщил, что их поисковой машине известно более одного триллиона (это тысяча миллиардов) уникальных ссылок. Разумеется, с той поры мировой интернет стал еще больше. И это при том, что индексируются только страницы, которые доступны всем пользователям.

Все ссылки поисковая система пропускает через фильтры, чтобы определить, нужно индексировать конкретную ссылку или нет. Некоторые ссылки отфильтровываются. Из полученного списка формируется очередь для обхода поисковым роботом. Порядок обхода может быть разным, он зависит от многих факторов. Важно, что робот старается отобрать и проиндексировать в первую очередь самые востребованные ссылки.

Дальше система управления поисковым роботом идет по списку ссылок и готовится индексировать содержимое страниц. Но прежде чем поисковый робот обращается к конкретной странице сайта, он обязательно проверяет файл robots.txt. И если владелец сайта не желает, чтобы новая страница индексировалась поисковой системой, он может попросить поискового робота этого не делать. И поисковый робот не будет этого делать. Конечно, злоумышленники, желающие украсть важный файл, не обратят внимание на содержимое robots.txt, но все крупные поисковые системы в обязательном порядке выполняют директивы этого файла.

Только если поисковый робот убедился, что robots.txt не запрещает индексирование странички, он будет ее индексировать. Это — единственный путь, по которому содержимое страницы попадает в поисковую систему. Другого способа нет.

Когда робот получил контент страницы, он снова применяет фильтры — отсекает мусор и спам. После того, как страницы отфильтрованы, можно приступать к ранжированию. Все страницы, доступные поисковой системе на этом этапе, могут появиться в результатах поиска. Таким образом, в поиске находится всё, что открыто всем и не запрещено вебмастером.

http://my.yandex.ru/

Июль 26, 2011

Столько текста и все это можно описать в одном обращении для веб-программистов: "Персональная информация не должна храниться в открытом (незапароленном) доступе ни при каких условиях! Даже если вы думаете, что _секретные_ адреса никто не узнает".

Июль 26, 2011

Столько текста и все это можно описать в одном обращении для веб-программистов: "Персональная информация не должна храниться в открытом (незапароленном) доступе ни при каких условиях! Даже если вы думаете, что _секретные_ адреса никто не узнает".

А директивы из robots.txt - обращают внимание только честные поисковики...

Июль 26, 2011

Было мнение что страница существовала пару минут, но т.к. яндекс получил о ней информацию через яндекс бар робот быстро пришел и проиндексировал.

Июль 26, 2011

Было мнение что страница существовала пару минут, но т.к. яндекс получил о ней информацию через яндекс бар робот быстро пришел и проиндексировал.

Для меня, чем больше ограничений на всякое ненужное и в настройках ОС и в программном обеспечении установлено, и отсутствуют всякие лишние программы. Все это еще дополнительно покрыто максимально приемлемыми и жесткими настройками, тем здоровее и спокойнее спится ночами; увереннее бороздятся просторы Интернета.

Июль 26, 2011

Это кстати тема про бары. Давно говорили что они палят твои действия, но всем было пофиг, но вот явный пример. Никаких нафиг баров.

Июль 26, 2011

А директивы из robots.txt - обращают внимание только честные поисковики...

Четно говоря мне не нравится увод внимания с проблемы кривой разработки веб-сервисов на отсутствие robots.txt (кстати говоря, да, который можно игнорировать). robots.txt - это не защита, это просто страховка, так на всякий случай, чтобы не палить вход в админку и другие служебные вещи.

Страницы с подтверждениями смс или заказов, чего угодно, доступны сколько угодно долго по времени и назащищены никакой авторизацией. В конечном итоге URL эти можно было подобрать перебором, хоть немного зная как работает движок. Так что не в поисковиках дело.

Вообще рекомендую копнуть веб-сервисы на предмет доступа к персональной инфе без авторизации, Яндекс тут не нужен. Думаю, что даже школьники тут могут поупражняться.

Было мнение что страница существовала пару минут, но т.к. яндекс получил о ней информацию через яндекс бар робот быстро пришел и проиндексировал.

Это не так, я вчера сам смотрел заказы, которые сделаны были давно. Они были доступны на уязвимых сайтах, а не в кеше поисковиков

Это кстати тема про бары. Давно говорили что они палят твои действия, но всем было пофиг, но вот явный пример. Никаких нафиг баров.

Ага, вот тема и выстрелила. Хотя лично я не могу отказаться от баров, мне с ними гораздо удобнее, чем без них. Сознательно иду на компромис, да и скрывать свои действия в сети особо не за чем.

Июль 26, 2011

Ага, вот тема и выстрелила. Хотя лично я не могу отказаться от баров, мне с ними гораздо удобнее, чем без них. Сознательно иду на компромис, да и скрывать свои действия в сети особо не за чем.

Ну и зачем они тебе нужны? Что именно ты используешь в них?

Июль 26, 2011

О том, кто, когда, куда и за сколько денег поедет по российским железным дорогам, можно узнать здесь

http://yandex.ru/yandsearch?p=12&text=...u%2A&lr=213

Июль 26, 2011

Четно говоря мне не нравится увод внимания с проблемы кривой разработки веб-сервисов на отсутствие robots.txt

А я и не утверждал - что в данном конкретном случае виноват исключительно robots.txt . Кривой/отсутсвующий и т.д. и т.п.

Хм... просто интересно... чисто теоретически

Допустим берем хакера Васю Пупкина

ломает он сайт www.super-puper-phone.com

имеется там файлик robots.txt, в котором указано - не индексировать

/admins/*

/sms/*

Неужто он не сунется по указанным адресам?

Июль 26, 2011

О том, кто, когда, куда и за сколько денег поедет по российским железным дорогам, можно узнать здесь
http://yandex.ru/yandsearch?p=12&text=...u%2A&lr=213

:facepalm: Сдается мне и кто куда полетит тоже можно узнать.... А еще кто где жить будет и т.д - кстати тут уже серьезней, по ссылке можно отменить заказ и тогда чел тупо встрянет (но это надо проверять)...

Июль 26, 2011

Страницы с подтверждениями смс или заказов, чего угодно, доступны сколько угодно долго по времени и назащищены никакой авторизацией. В конечном итоге URL эти можно было подобрать перебором, хоть немного зная как работает движок. Так что не в поисковиках дело.

Не соглашусь.

Есть URI: http://example.org/?sessid=idkflr9ek73jdkldpf73jdxcm384nd30

Он сгенерирован хешированием логина и пароля пользователя.

Он уникален и вполне безопасен, если этот URI не будет где-то опубликован. Перебором его вряд ли получишь.

А вот, то что он может утечь через всякие тулбары, метрики и т.п. это проблема разработчиков.

Поэтому, как правило, такие данные передают через POST, а не GET, но не всегда это может быть удобно.

Сдается мне и кто куда полетит тоже можно узнать.... А еще кто где жить будет и т.д - кстати тут уже серьезней, по ссылке можно отменить заказ и тогда чел тупо встрянет (но это надо проверять)...

Как вы отмените?

Июль 26, 2011

Как вы отмените?

Есть сервисы, куда зайдя по ссылке, затем можно изменить статус заказа и отменить его. (это теория, надо на практике проверять).

Июль 26, 2011

Есть сервисы, куда зайдя по ссылке, затем можно изменить статус заказа и отменить его. (это теория, надо на практике проверять).

нужно иметь полный номер паспорта, что бы что-то сделать.

Июль 26, 2011

нужно иметь полный номер паспорта, что бы что-то сделать.

В том, который я знаю - нет. Со странички со статусом заказа можно перейти к изменению и тупо отменить его.

Июль 26, 2011

Продолжаем нашу неделю откровений - встречайте Туту Ру с паспортными данными. Robots.txt в порядке, в Гугле пусто. Привет, Очир.

http://yandex.ru/yandsearch?p=2&text=%...r=213%3C%2Fa%3E

Июль 26, 2011

О том, кто, когда, куда и за сколько денег поедет по российским железным дорогам, можно узнать здесь
http://yandex.ru/yandsearch?p=12&text=...u%2A&lr=213

В последний раз robots.txt менялся сегодня в 12:26:14 GMT. Логично предположить, что ТЕПЕРЬ там robots.txt в порядке.
#1465384/2 http://juick.com/1465384#2

Июль 26, 2011

Ждем мед.анализов и другой приблуды. А также данные с портала госуслуг...

Июль 26, 2011

а ты посмотри когда последний раз роботс на Туту менялся, лол

Июль 26, 2011

с паспортными данными

Наистрашнейшая глубокая Жуть.

Июль 26, 2011

а ты посмотри когда последний раз роботс на Туту менялся, лол

tutu.ru/robots.txt

Last-Modified: Thu, 30 Jun 2011 10:17:13 GMT

avia.tutu.ru/robots.txt

Last-Modified: Wed, 13 Jul 2011 12:35:52 GMT

:lol:

Июль 26, 2011

О том, кто, когда, куда и за сколько денег поедет по российским железным дорогам, можно узнать здесь
http://yandex.ru/yandsearch?p=12&text=...p;lr=213имеется там файлик robots.txt, в котором указано - не индексировать

/admins/*

/sms/*

Конечно, обязательно посмотрят.

Неужто он не сунется по указанным адресам? Не соглашусь.
Есть URI: http://example.org/?sessid=idkflr9ek73jdkldpf73jdxcm384nd30

В этом случае да, согласен. НО это не гарантирует, что кто-то прочитает или подсмотрит ссылку у вас в почте, месенжере и потом по ней не пройдет. Т.е. гарантии от утечки данные все равно нет здесь никакой.

********************

Конечно утечки данных билетов - это жесть ...

Но историю с фотками из QIP 2010, конечно, никто не перебьет ...

tutu.ru/robots.txt
Last-Modified: Thu, 30 Jun 2011 10:17:13 GMT

Да наличие robots.txt ничего не гарантирует. Это все на совести владельцев поисковиков. Файл число для декларации и рассчитано все на добрую волю тех, кто индексирует. + половина веб-мастеров вообще не знает толком как его составлять нужно правильно, а большинство CMS его генерят автоматически.

Июль 26, 2011

Да наличие robots.txt ничего не гарантирует. Это все на совести владельцев поисковиков. Файл число для декларации и рассчитано все на добрую волю тех, кто индексирует. + половина веб-мастеров вообще не знает толком как его составлять нужно правильно, а большинство CMS его генерят автоматически.

Ага, именно про их "добрую волю" и вещал нам всю неделю т-щ Манджиков, поучая всех и вся о том как надо настраивать роботс.ткст и рассказывая о том, какой Яндекс честный. Не так ли ? Свежий факт с Туту ру показывает, что т-щ Соврамши...

HTTP/1.0 200 OK

Date: Tue, 26 Jul 2011 12:21:14 GMT

Content-Type: text/plain; charset=UTF-8

Last-Modified: Thu, 30 Jun 2011 10:17:07 GMT

ETag: "2c0a83-4cc-4a6eb34087ac6"

Accept-Ranges: bytes

Content-Length: 1228

X-Cache: MISS from chicken-machine

X-Cache-Lookup: MISS from chicken-machine:3128

Connection: close

User-agent: YaDirectBot

Crawl-Delay: 10

Allow: *date=*

Allow: *view_c.php*

Allow: *&ring=1*

User-Agent: *

Disallow: /order/*

Disallow: *date=*

Disallow: *order=*

Disallow: *nosimple=*

Disallow: *noblue=*

Disallow: *nogreen=*

Disallow: *rasp_change.php*

Disallow: *view_c.php*

Disallow: *search*

Disallow: *autocomplete*

Disallow: *charter/order*

Disallow: *date_from=*

Disallow: *date_forward=*

Disallow: /avia/offers/*

Disallow: /avia/online/*

Disallow: /avia/basket/*

Disallow: /avia/partners_get_link.php*

Disallow: *calendar_day=*

Disallow: /?*

Disallow: /msk/?*

Disallow: /avia/?*

Disallow: /spb/?*

Disallow: /metro/?*

Disallow: /poezda/?*

Disallow: /poezda/order/*

Disallow: /poezda/zakaz/?*

Disallow: /poezda/e-zakaz/?*

Disallow: *&print=yes*

Disallow: *&filterTrainType=*

Disallow: *&ring=1*

Disallow: *&list=2*

Disallow: *&list=3*

Disallow: *&list=4*

Disallow: *&list=5*

Disallow: *&list=6*

Disallow: *&list=all*

Disallow: *&order=*

Disallow: /poezda/station/map/*

Disallow: /poezda/e-zakaz/error.php*

Disallow: *show=trains*

Disallow: *active_form=*

Disallow: *letter=*

Disallow: *utm_source*

Disallow: *utm_content*

Disallow: *openstat*

User-agent: MediaPartners-Google

Allow: /

Host: www.tutu.ru

Crawl-Delay: 0.5

Июль 26, 2011

Июль 26, 2011

Но историю с фотками из QIP 2010, конечно, никто не перебьет ...

Однако богато на всяческие неприятности это лето.

Отредактировал Июль 26, 2011 UIT

В поисковиках найдется все?

Recommended Posts

Danilka 678

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Kapral 311

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

OlegAndr 236

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

UIT 103

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

OlegAndr 236

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Danilka 678

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

A. 876

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Kapral 311

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Danilka 678

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Deja_Vu 366

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Danilka 678

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Deja_Vu 366

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Danilka 678

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

A. 876

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Umnik 997

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Danilka 678

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

A. 876

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

UIT 103

Поделиться сообщением