Как управлять индексацией сайта
Чтобы поисковая система могла ответить на запросы пользователей, она должна найти нужные сайты, просканировать их содержимое и выдать наиболее подходящий результат. Задача поиска и сканирования сайтов лежит на плечах поисковых роботов (веб-краулеров). У Google и «Яндекса», как и у других поисковых систем, множество веб-краулеров, выполняющих разные функции.
Поисковый робот – это программа, которая «ходит» по Сети и формирует список URL-адресов с различной информацией (поисковый индекс). После формирования этого списка в дело вступает индексирующий робот. Его цель – сканировать информацию, которая находится в том или ином документе, чтобы проверить ее на соответствие запросу пользователя. Затем поисковая система принимает решение, какой именно документ и на какой позиции выводить в ответ на запрос. Конечно, это сильно упрощенная схема, подробнее процесс индексирования описан на сайте «Яндекс» (ссылка на статью в Приложении 11).
Вы можете и должны управлять поисковыми роботами. Закрывать ненужные страницы от индексации, ограничивать лимиты на сканирование страниц роботами и т. п.
Обязательно нужно управлять поисковыми роботами. Закрывать служебные или нетематические страницы от индексации, например раздел администратора или персональные разделы пользователя на сайте, дубли страниц и прочее. А также важно устанавливать лимиты на сканирование страниц роботами, если ваш сервер не справляется с нагрузкой.
Существует несколько базовых инструментов, влияющих на взаимодействие поискового робота с сайтом. Вот наиболее распространенные:
1. Файл robots.txt.
2. Файл sitemap.
3. Сервис «Яндекс. Вебмастер».
4. Сервис Google Webmaster.
5. HT TP-заголовок X-Robots-Tag[13].
6. Метатег robots.
7. Тег canonical.
8. Метатеги noindex и noscript (правда, с ними сейчас мало кто работает).
Рассмотрим каждый из них, чтобы у вас сформировалось общее представление.
Файл robots.txt – текстовый файл, который создается в блокноте или текстовом редакторе. Размещается на каждом сайте в основном каталоге и открывается по ссылке вида site.ru/robots.txt. Попробуйте открыть любой сайт в Сети, набрав адрес по образцу, только замените site.ru на конкретный. Например, https://vk.com/robots.txt или https://www.lamoda.ru/robots.txt.
Такой файл есть на любом ресурсе, независимо от его типа или направленности. Он отвечает за техническую сторону взаимодействия с поисковыми системами. В нем прописаны правила, на основе которых происходит индексация сайта. Внутри каждого подобного файла вы увидите строки кода, который немного отличается от сайта к сайту.
Для примера посмотрите на содержимое файла:
https://market.yandex.ru/robots.txt
На момент написания книги в нем были следующие строки:
User-agent: *
Disallow: /?
Disallow: /thanks
Disallow: /geo$
Disallow: /ai.xml
…часть информации удалена…
Disallow: /wishlist
User-agent: AdsBot-Google
Disallow: /offer/*
User-agent: AdsBot-Google-Mobile
Disallow: /offer/*
User-agent: Googlebot
Disallow: /?
Disallow: /thanks
Disallow: /geo$
Disallow: /ai.xml
…часть информации удалена…
Disallow: /version/node
Disallow: /wishlist
Clean-param: cmid&grade_value /shop-opinions.xml
Clean-param: cmid&grade_value /shop/
Clean-param: grade_value /product/
Clean-param: local-offers-first
Clean-param: onstock
…часть информации удалена…
Sitemap: https: https://market.yandex.ru/sitemap.xml
Host: https: //market.yandex.ru
Документ делится на несколько смысловых частей за счет следующих директив:
• User-agent (принимает два значения – Disallow и Allow);
• Clean-param;
• Sitemap;
• Host.
Первая директива – User-agent* – указывает, для какого поискового робота предназначены написанные под ней правила. А знак звездочки – что директива относится ко всем роботам.
Обратите внимание, в файле несколько директив с заголовком User-agent:
• User-agent: AdsBot-Google,
• User-agent: AdsBot-Google-Mobile,
• User-agent: Googlebot[14].
Каждая из них содержит особый набор правил для указанных после двоеточия роботов. Хотя, конечно, на самом деле у Google роботов больше.
Под директивой User-agent располагается одна из директив: URL Disallow или Allow. Первая запрещает индексировать разделы и определенные страницы, а вторая, наоборот, разрешает.
Далее следует директива Clean-param, в которой перечислены параметры URL страницы, которые нужно игнорировать при индексации. К ним могут относиться как рекламные теги (UTM-метки), так и другие параметры, которые вы используете для своих целей.
Конкретно в этом примере нет директивы Crawl-delay. Она указывает временной интервал между загрузками страниц в секундах. Но ее можно часто увидеть в файлах robots.txt. Например, на сайте pleer.ru:
User-agent: Yandex
Disallow: /*?
Disallow: /*?_openstat
…часть информации удалена…
Crawl-delay: 2
Директива Crawl-delay задается в конце блока User-agent и применяется для контроля скорости обхода сайта каждым из роботов. Это важный параметр, который позволяет контролировать нагрузку на сервер. Если ваш сайт не выдерживает нагрузку при работе поисковых роботов, заниматься SEO-продвижением нет смысла. Вам обязательно нужен качественный хостинг с возможностью увеличения мощности и контроля нагрузки на сайт с вашей стороны.
Для «Яндекса» лучше использовать настройку скорости обхода сайта в интерфейсе «Яндекс. Вебмастер», поскольку с 2018 года поисковик игнорирует значение Crawl-delay, прописанное в robots.txt.
Далее следует директива Sitemap, указывающая путь к файлу, в котором содержится карта вашего сайта. В каком месте прописана эта директива, неважно, поскольку она не связана с User-agent.
В самом конце файла robots.txt принято указывать директиву Host с доменным адресом вашего сайта, точнее с его главным зеркалом.
Опытный SEO-специалист внимательно изучает структуру сайта и содержимое страниц, которые входят в индекс поисковой системы. Затем формирует корректный файл robots.txt, чтобы запретить поисковым роботам индексировать архивы, дублирующие страницы и прочий ненужный для поисковика контент. Например, нужно исключать из индексации страницы сортировки товаров (по цене, алфавиту и т. д.) в интернет-магазине.
Файл sitemap содержит информацию о структуре сайта, которую вы хотите передать в поисковую систему. Сюда относятся все основные и второстепенные страницы (новости, статьи, страницы товаров и каталога и т. д.). Также sitemap передает информацию о том, когда страница была создана, когда обновлялась, и ее версии на других языках.
Этот файл пишет вручную или формирует под конкретный сайт программист по техническому заданию от SEO-специалиста. Существуют, конечно, автоматические генераторы карты сайта, но не стоит на них полагаться.
К файлу sitemap применяется ряд технических ограничений на объем информации. Например, нельзя размещать более 50 000 строк. Если их больше, нужно делать несколько файлов и объединять их через корневой файл.
Рис. 12. Пример объединения в корневом sitemap ссылок на другие sitemap.
В первую очередь sitemap – это составная часть robots.txt, она загружается в приложения для веб-мастеров и в «Яндексе», и в Google.
Чтобы посмотреть пример такого файла, перейдите на сайт, который вам интересен, откройте файл robots.txt и в конце найдите ссылку на sitemap. Она будет выглядеть примерно так: Sitemap: https://SITE.ru/sitemap.xml.
«Яндекс. Вебмастер» и Google Search Console – сервисы, которые помогают следить за работой сайта, настраивать поисковую оптимизацию, устранять неполадки. Кроме того, они дают ценные подсказки, какие именно параметры необходимо исправить на сайте, чтобы повлиять на его ранжирование, позиции в поисковой выдаче и многое другое.
После создания сайта нужно зарегистрировать его в этих двух сервисах и связать «Яндекс. Вебмастер» с «Яндекс. Метрикой».
Затем вы сможете передать в поисковую систему базовую информацию о том, какой именно контент представлен на вашем сайте, а также содержимое sitemap, и проверить, как осуществляется индексирование сайта поисковой системой.
Рис. 13. Скриншот раздела «Яндекс. Вебмастер», через который можно передать дополнительную информацию.
Следует понимать, что поисковые роботы так или иначе все равно найдут ваш сайт, если он будет развиваться в Сети. Приложения веб-мастеров «Яндекса» и Google нужны скорее для мониторинга процессов индексирования. И через них удобно следить за ошибками, которые находят сервисы. Важно устранять их сразу, как только система о них сообщает, иначе это негативно скажется на рейтинге сайта и поисковой выдаче.
В «Яндекс. Вебмастер» вы можете передать информацию о направленности бизнеса в виде YML-файлов[15]. Это необязательно, но поможет привлечь больше посетителей на сайт. Опция доступна для некоторых категорий предпринимателей (рис. 13).
Если ваш сайт региональный, не забудьте отметить это в «Яндекс. Вебмастер» и «Яндекс. Бизнес». А вот в Google эту информацию следует передавать через Google Business.
Также будет полезно отслеживать показатели эффективности в Google (рис. 14). График показывает, сколько всего кликов и показов было у вашего сайта, а также какой средний CTR и средняя позиция была у семантики[16]