Как поисковые системы индексируют сайты?
Все прекрасно понимают, что все странички любого сайта рано или поздно попадают в индекс поисковых систем. Хотя тут следует оговориться, что попадают туда не все странички. Ведь хозяева сайтов могут запретить индексацию отдельных страниц. Да и странички со спамом или мало ценной информации, по мнению поисковых систем не попадают в индекс. Но давайте подробнее рассмотрим процесс индексации. Ведь без знания этих процессов продвижение сайтов просто не мыслимо. Тут еще хотелось бы отметить такой момент, что ниже будет приведена лишь основа системы индексирования сайта поисковыми машинами. Более детально этот процесс знают лишь специальные агентства по продвижению сайта.
Если говорить в общих чертах, то можно сказать, что поисковые роботы во время посещения сайтов собирают всю встретившуюся на их пути информацию, а затем помещают ее в особую базу данных. В дальнейшем эти данные будут обработаны и создана выжимка из всего обилия этих документов, что собственно говоря, и называется индексом, по которому поисковая система и будет искать, а затем выдавать пользователям Интернета ссылки на те или иные страницы сайтов исходя из их запроса.
У поисковых систем есть как быстрый, так и основной робот. Если основной робот индексирует весь контент, то быстро-робот заносит в базу лишь свежую информацию. Перемешаются эти роботы в Интернете по маршруту, который составляет для них планировщик поисковой системы. Все новые ссылки в результате попадают в индекс.
Во время первого посещения сайта робот определяет состояние сайта, если оно удовлетворяет поисковую систему, то сайт попадает в индекс поисковой системы. Во время повторных посещений робот добавляет в индекс все новые страницы сайта. Кроме того, он проверяет и уже проиндексированные страницы и в случае необходимости обновляет информацию о них.
Казалось бы, любая новая страница сайта должна мгновенно попадать в индекс, но это в теории, а вот на практике скорость индексирования сайта гораздо ниже. Поэтому давайте выясним, от чего зависит скорость индексирования?
Роботам приходится ежесекундно скачивать огромные объемы информации, постоянно добавлять в индекс новые страницы и обновлять старые. Поэтому о мгновенной индексации остается только мечтать. Причем обновленную базу необходимо будет перенести еще и в базу поиска, чтобы обновленная информация стала доступна пользователям. Причем переносить нужно лишь ценные страницы с точки зрения поисковой системы.
Но для новостных сайтов нужна мгновенная индексация, иначе их не будут посещать пользователи. Поэтому поисковые системы запускают в сеть еще и специального новостного быстро-робота, который появляется на страницах новостных сайтов по несколько раз в день.
О том, что ваш сайт заинтересовал новостного робота можно догадаться по появлению в поисковой выдаче времени последнего обновления рядом с адресом сайта.
Хоть поисковые роботы и стремятся как можно быстрее проиндексировать сайт, но скорость попадания в индекс зависит от авторитетности ресурса, наличия карты сайта, отсутствия ошибок, которые препятствуют индексированию и уровня вложенности страницы.
Управлять индексацией сайта можно с помощью специального файла robots.txt, в котором задаются параметры индексации сайта и с помощью метатегов noindex (запрещает индексацию текста) nofollow (запрещает индексацию ссылки).
Отметим, что помимо обычных страниц поисковые системы индексируют и данные, которые находятся в формате pdf.
|