Упрощенное представление процесса поисковой индексации. Ключевые моменты процесса, требования к индексируемому ресурсу и файл sitemap.
Как уже упоминалось в части 1 поисковая система систематизирует информацию на многих миллионах веб-страниц. Этот процесс называется созданием поискового индекса или поисковой индексацией.
В процессе индексации поисковая система страницу за страницей просматривает веб-сайты и формирует поисковый индекс. Инструмент просмотра страниц также называют поисковым роботом. Робот анализирует страницу, определяет наличие ссылок, фиксирует их и осуществляет по ним переход вглубь сайта, как обычный пользователь. Наряду с переходом по ссылкам используется файл Sitemap, который предоставляет владелец сайта.
Файл Sitemap содержит информацию о страницах, видео и других файлах на сайте, а также о взаимосвязи между ними. Данный файл также определяет, какие страницы сайта наиболее важны, когда они обновлялись, есть ли, например, языковые версии страницы. Поисковый робот использует этот файл для более эффективного сканирования сайта.
Обычно поисковый робот в состоянии сам определить структуру сайта, при условии, что все страницы имеют входящую ссылку (например из меню навигации или с других страниц сайта). Sitemap упрощает эту процедуру для робота, что особенно важно, если сайт сложный и содержит множество страниц внутри себя.
1. Ваш сайт достаточно большой. При этом довольно высока вероятность, что робот не сразу обойдет все новые или недавно измененные страницы.
2. Если есть вероятность того, что не все страницы сайта имеют входящую ссылку с соседних страниц (изолированы или плохо связаны друг с другом). Если страницы не ссылаются друг на друга, то включение их в Sitemap позволит роботу проиндексировать их.
3. Если ваш сайт новый, то на него как правило никто извне не ссылается (нет внешних ссылок), и робот может не узнать о вашем сайте довольно продолжительное время.
4. Если на вашем сайте много мультимедийного или новостного контента, то дополнительная информация в Sitemap может быть использована роботом.
1. Ваш сайт "маленький". Т.е. общее количество страниц, нуждающихся в поисковой индексации менее 500.
2. Ваш сайт имеет хорошую перелинковку со страницы на страницу. В этом случае робот сам обойдет все страницы по существующим ссылкам, начиная с главной.
3. На сайте не очень много мультимедийного или новостного контента, который было бы необходимо отображать в результатах поиска.