Как создать и правильно настроить robots.txt с комментарием SEO-специалиста

Гайд по robots.txt для начинающих SEO-специалистов

photo
Надеюсь, вам понравится читать этот пост!
Если вы хотите, чтобы моя команда просто занималась вашим маркетингом, нажмите здесь.

Абсолютно все сеошники сталкиваются с разработкой и настройкой robots.txt. Грамотно составленный документ позволяет быстрее индексировать страницы и занимать высокие позиции в выдаче по релевантным запросам. Мы написали простую инструкцию для начинающих SEO-специалистов: о том, что из себя представляет индексный файл и как его правильно настраивать.

Для чего нужен индексный файл?

Файл robots.txt — текстовый документ в кодировке UTF-8, ограничивающий краулерам доступ к контенту (разделам, страницам) вебсайта. Действует по протоколам URL (http, https и FTP).

В основном он нужен, чтобы:

  • Скрывать не предназначенные для публикации страницы
  • Оптимизировать краулинговый бюджет
  • Предотвращать дублирование контента

От индексации обычно закрывают панель администратора, результаты поиска по сайту, страницы регистрации и авторизации, фиды, пустые или разрабатываемые страницы и т.д.

Краулинговый бюджет — предел страниц для сканирования поисковыми роботами за интервал времени. Расчёт производится с учетом пользовательского спроса и доступности сервера.

Иногда вместо индексного файла применяют noindex в мета-теге robots. Например, чтобы передать ссылочный вес страницы, убираемой из индекса. Добавляем в <head> мета-тег <meta name=”robots” content=”noindex, follow”>. 

Важно: директивы robots.txt и инструкция noindex в robots выступают как рекомендации и могут быть проигнорированы роботами.

Инструкция по работе с robots.txt

Перед тем, как приступать к созданию файла, необходимо убедиться в отсутствии robots.txt на сайте. Самый простой способ узнать о наличии такого файла — поместить URL-адрес сайта в браузер с добавлением /robots.txt. В результате произойдет одно из трёх событий:

  1. Найдете прописанный (пусть и не очень глубоко) файл
  2. Обнаружите практически пустой, но настроенный роботс
  3. Получите сообщение об ошибке 404, так как страницы не существует

Краткое руководство по созданию:

  • Наполните текстовый документ с поддержкой UTF-8
  • Сохраните его под названием robots в формате txt
  • Проверьте и внесите корректировки
  • Разместите robots.txt в корневом каталоге

Необходимо ознакомиться с инструкциями по наполнению, директивами и синтаксисом файла.

Общие требования

  • Название записывается в нижнем регистре — robots.txt
  • UTF-8 кодировка
  • Формат — txt
  • Размер составляет до 500 КиБ
  • Размещение в корне сайта
  • Единственный на сайте
  • Доступ для нужного протокола и номера порта
  • Никакой кириллицы. Для доменов применяется Punycode. Кодировка адресов страниц и структуры сайта совпадают.

Обращаем внимание, что для вебсайтов с поддоменами для каждого в корне указываются отдельные robots.txt.

Используемые директивы и синтаксис

Директивы прописывают инструкции для поисковых роботов. Каждая указывается с новой строки. Рассмотрим их назначение и особенности:

1. Обязательная директива User-agent. С ее помощью задаем правила для каждого робота:

image1

Поисковики выбирают специфичные (подходящие для них) правила и могут проигнорировать инструкции в *. Поэтому рекомендуется прописывать несколько агентов для каждого, разделяя наборы разрывом строки.

2-3. Allow и Disallow регулируют доступ к контенту для индексирования. Первая директива открывает, вторая — закрывает. Использование слэша (/) —  останавливает краулеров от сканирования содержимого сайта: Disallow: /

Однако  Disallow с пустой секцией равнозначен Allow.

Рассмотрим частный случай:

image2

В таком сочетании роботы просматривают только определенный пост блога, остальной контент для них недоступен.

  • Путь страниц прописывается полностью, разделов — заканчивается косой чертой (/);
  • Сортируются Allow и Disallow по длине префикса URL (от меньшего к большему). При наличии нескольких подходящих для страницы правил предпочтение отдается последнему;
  • Поддерживаются спецсимволы * и $.

4. Sitemap — прописывает положение карты сайта в xml формате. Такая навигация содержит URL страниц, обязательных к индексации. После каждого обхода роботом получим обновление информации о сайте в поиске с учетом всех изменений в файле.

Пример: Sitemap: https://site.com//sitemap.xml. 

  • Помещаем в любом месте документа без дублирования
  • При заполнении указываем полный URL
  • Большие карты рекомендуется разбивать

5. Clean-param применяется дополнительно и действует для Яндекса.

Исключает динамические (UTM-метки) и get-параметры. Такие данные не влияют на содержимое страницы, следовательно, недопустимы к индексации.

Через «&» указываются параметры, после — префикс пути всех или отдельных страниц, к которым применяется правило:

Clean-param: parm1&parm2&parm3/            

Clean-param: parm1&parm2&parm3/page.html   

При наличии нескольких страниц с дублирующейся информацией целесообразнее свести их адреса к одному:

Clean-param: ref /some_dir/get_products.pl — содержит адреса страниц:

www.robot.com/some_dir/get_products.pl?products_id=123

www.robot.com/some_dir/get_products.pl?ref=site_1&products_id=123

www.robot.com/some_dir/get_products.pl?ref=site_2&products_id=123

www.robot.com/some_dir/get_products.pl?ref=site_3&products_id=123

Параметр ref используем, чтобы отследить ресурс, с которого поступил запрос.

  • Длина составляет не более 500 символов
  • При перечислении параметров учитывается регистр
  • Располагается в любом месте документа
  • Снижает нагрузку и ускоряет индексацию, так как краулеры не будут тратить время на сканирование страниц-повторов

6. Craw-delay определяет время для обхода страниц.

Пример: Crawl-delay: 2 — интервал в 2 секунды.

  • Неактуально для Google
  • Для Яндекса лучше настраивать в Вебмастере
  • Позволит замедлить сканирование в случае перегрузки

7. Через Host указываем главное зеркало сайта, чтобы избежать дублей в выдаче. При наличии нескольких значений учитывается только первое, остальные игнорируются.

  • Неактуально для Google, с 20 марта 2018 года — для Yandex
  • Заменяется на 301 редирект

Краулеры по-разному интерпретируют директивы. Яндекс соблюдает правила, описанные в файле. Google руководствуется собственными принципами. Поэтому при работе с ним рекомендуется закрывать страницы через мета-тег robots.

Спецсимволы «/, *, $, #»

Звездочка (*) учитывает последовательность символов. Символ $ сообщает об окончании строки и нейтрализует звездочку (*).

image3

После решетки «#» размещаем комментарии в той же строке. Их содержание игнорируется при сканировании.

Слэш «/» скрывает контент. Один слэш в Disallow не допускает к индексации весь сайт. Два знака «//» применяются для запрета на сканирование отдельной директории.

image4

Собираем данные, определяем нужные и «мусорные» страницы. С их учётом наполняем документ, не забывая про требования и инструкции. В итоге получаем готовый robots.txt вида:

image5

Открываем доступ к стилям и скриптам для корректного проведения рендеринга. В противном случае не удастся правильно проиндексировать содержимое, что отрицательно отразится на позиции сайта.

Внедряем Clean-param при наличии динамических ссылок или передаче параметров в URL. Использование Craw-Delay также необязательно и вступает в силу в случае нагрузки на ресурс.

  • Пустые строки допустимы только между группами инструкций для каждого агента.
  • Как минимум, документ должен содержать агента и директиву на запрет.
  • Для robots действуют уникальные правила в зависимости от вида сайта и CMS.
  • Директивы действительны в течение длительного времени в случае потери краулером доступа к индексному файлу.
  • Закрытая страница может оказаться в индексе, если ссылка на неё размещена на самом сайте или стороннем ресурсе.
Бесплатное обучение маркетингу от Edugusarov.by на 7 дней
У нас вы сможете учиться в удобном темпе, понять, как работает маркетинг, и оценить необходимость его изучения.
Едугусаров картинка

Обратите внимание

Полное ограничение доступа краулерамсамая большая ошибка в использовании индексного файла. Поисковые системы перестанут сканировать ресурс, что может отрицательно отразиться на органическом трафике. Рекомендуем только дополнять и обновлять файл после тестирования каждого внесенного правила для своевременного исправления ошибок. При создании и внесении изменений в robots.txt применяем золотое правило: меньше строк, больше смысла.

В случае отказа от внедрения индексного файла краулеры будут сканировать ресурс без ограничений. При этом отсутствие такого файла не критично для малых сайтов. В противном случае, следует учитывать краулинговый бюджет и внедрять документ robots.

Важно: robots.txt — общедоступный файл. Пока существует вероятность индексации закрытого контента необходимо убедиться, что страницы с конфиденциальной информацией используют пароли и noindex.

Павел Лапаревич, SEO-специалист GUSAROV:

Гугл уже давно воспринимает robots.txt как рекомендацию и спокойно индексирует страницы с параметрами и служебные страницы сайта (страницы регистрации, авторизации, корзины и т.д.). Смысла от прописывания директив и траты времени на него становится всё меньше. Более действенный способ настройки: вывод <meta name=»robots» content=»noindex»>. Страницы с таким мета тегом в robots.txt не закрываются. Но все же есть преимущество этого файла над noindex. Краулеры перестают переобходить страницы, закрытые в robots.txt, а, следовательно, экономится краулинговый бюджет. Поэтому для больших сайтов лучше использовать robots.txt и постоянно следить за индексом, закрывая страницы, которые поисковики продолжают индексировать с помощью noindex.

Присоединяйтесь к нам уже сегодня!
Чем мы сможем помочь:
  • — провести детальный SEO-аудит и вывести ваш сайт в топ поисковых систем
  • — настроить эффективную контекстную рекламу, которая приведет к вам новых Клиентов
  • — создать сайт, который будет работать на ваш бизнес с первых дней
  • — запустить мощные рекламные кампании в соцсетях и существенно увеличить охват вашей аудитории
  • — внедрить и оптимизировать CRM-систему для повышения эффективности работы

  • Беларусь
  • Россия
  • Другие
Получить кейсы Написать в Telegram