Абсолютно все сеошники сталкиваются с разработкой и настройкой robots.txt. Грамотно составленный документ позволяет быстрее индексировать страницы и занимать высокие позиции в выдаче по релевантным запросам. Мы написали простую инструкцию для начинающих SEO-специалистов: о том, что из себя представляет индексный файл и как его правильно настраивать.
Для чего нужен индексный файл?
Файл robots.txt — текстовый документ в кодировке UTF-8, ограничивающий краулерам доступ к контенту (разделам, страницам) вебсайта. Действует по протоколам URL (http, https и FTP).
В основном он нужен, чтобы:
- Скрывать не предназначенные для публикации страницы
- Оптимизировать краулинговый бюджет
- Предотвращать дублирование контента
От индексации обычно закрывают панель администратора, результаты поиска по сайту, страницы регистрации и авторизации, фиды, пустые или разрабатываемые страницы и т.д.
Краулинговый бюджет — предел страниц для сканирования поисковыми роботами за интервал времени. Расчёт производится с учетом пользовательского спроса и доступности сервера.
Иногда вместо индексного файла применяют noindex в мета-теге robots. Например, чтобы передать ссылочный вес страницы, убираемой из индекса. Добавляем в <head> мета-тег <meta name=”robots” content=”noindex, follow”>.
Важно: директивы robots.txt и инструкция noindex в robots выступают как рекомендации и могут быть проигнорированы роботами.
Инструкция по работе с robots.txt
Перед тем, как приступать к созданию файла, необходимо убедиться в отсутствии robots.txt на сайте. Самый простой способ узнать о наличии такого файла — поместить URL-адрес сайта в браузер с добавлением /robots.txt. В результате произойдет одно из трёх событий:
- Найдете прописанный (пусть и не очень глубоко) файл
- Обнаружите практически пустой, но настроенный роботс
- Получите сообщение об ошибке 404, так как страницы не существует
Краткое руководство по созданию:
- Наполните текстовый документ с поддержкой UTF-8
- Сохраните его под названием robots в формате txt
- Проверьте и внесите корректировки
- Разместите robots.txt в корневом каталоге
Необходимо ознакомиться с инструкциями по наполнению, директивами и синтаксисом файла.
Общие требования
- Название записывается в нижнем регистре — robots.txt
- UTF-8 кодировка
- Формат — txt
- Размер составляет до 500 КиБ
- Размещение в корне сайта
- Единственный на сайте
- Доступ для нужного протокола и номера порта
- Никакой кириллицы. Для доменов применяется Punycode. Кодировка адресов страниц и структуры сайта совпадают.
Обращаем внимание, что для вебсайтов с поддоменами для каждого в корне указываются отдельные robots.txt.
Используемые директивы и синтаксис
Директивы прописывают инструкции для поисковых роботов. Каждая указывается с новой строки. Рассмотрим их назначение и особенности:
1. Обязательная директива User-agent. С ее помощью задаем правила для каждого робота:
Поисковики выбирают специфичные (подходящие для них) правила и могут проигнорировать инструкции в *. Поэтому рекомендуется прописывать несколько агентов для каждого, разделяя наборы разрывом строки.
2-3. Allow и Disallow регулируют доступ к контенту для индексирования. Первая директива открывает, вторая — закрывает. Использование слэша (/) — останавливает краулеров от сканирования содержимого сайта: Disallow: /
Однако Disallow с пустой секцией равнозначен Allow.
Рассмотрим частный случай:
В таком сочетании роботы просматривают только определенный пост блога, остальной контент для них недоступен.
- Путь страниц прописывается полностью, разделов — заканчивается косой чертой (/);
- Сортируются Allow и Disallow по длине префикса URL (от меньшего к большему). При наличии нескольких подходящих для страницы правил предпочтение отдается последнему;
- Поддерживаются спецсимволы * и $.
4. Sitemap — прописывает положение карты сайта в xml формате. Такая навигация содержит URL страниц, обязательных к индексации. После каждого обхода роботом получим обновление информации о сайте в поиске с учетом всех изменений в файле.
Пример: Sitemap: https://site.com//sitemap.xml.
- Помещаем в любом месте документа без дублирования
- При заполнении указываем полный URL
- Большие карты рекомендуется разбивать
5. Clean-param применяется дополнительно и действует для Яндекса.
Исключает динамические (UTM-метки) и get-параметры. Такие данные не влияют на содержимое страницы, следовательно, недопустимы к индексации.
Через «&» указываются параметры, после — префикс пути всех или отдельных страниц, к которым применяется правило:
Clean-param: parm1&parm2&parm3/
Clean-param: parm1&parm2&parm3/page.html
При наличии нескольких страниц с дублирующейся информацией целесообразнее свести их адреса к одному:
Clean-param: ref /some_dir/get_products.pl — содержит адреса страниц:
www.robot.com/some_dir/get_products.pl?products_id=123
www.robot.com/some_dir/get_products.pl?ref=site_1&products_id=123
www.robot.com/some_dir/get_products.pl?ref=site_2&products_id=123
www.robot.com/some_dir/get_products.pl?ref=site_3&products_id=123
Параметр ref используем, чтобы отследить ресурс, с которого поступил запрос.
- Длина составляет не более 500 символов
- При перечислении параметров учитывается регистр
- Располагается в любом месте документа
- Снижает нагрузку и ускоряет индексацию, так как краулеры не будут тратить время на сканирование страниц-повторов
6. Craw-delay определяет время для обхода страниц.
Пример: Crawl-delay: 2 — интервал в 2 секунды.
- Неактуально для Google
- Для Яндекса лучше настраивать в Вебмастере
- Позволит замедлить сканирование в случае перегрузки
7. Через Host указываем главное зеркало сайта, чтобы избежать дублей в выдаче. При наличии нескольких значений учитывается только первое, остальные игнорируются.
- Неактуально для Google, с 20 марта 2018 года — для Yandex
- Заменяется на 301 редирект
Краулеры по-разному интерпретируют директивы. Яндекс соблюдает правила, описанные в файле. Google руководствуется собственными принципами. Поэтому при работе с ним рекомендуется закрывать страницы через мета-тег robots.
Спецсимволы «/, *, $, #»
Звездочка (*) учитывает последовательность символов. Символ $ сообщает об окончании строки и нейтрализует звездочку (*).
После решетки «#» размещаем комментарии в той же строке. Их содержание игнорируется при сканировании.
Слэш «/» скрывает контент. Один слэш в Disallow не допускает к индексации весь сайт. Два знака «//» применяются для запрета на сканирование отдельной директории.
Собираем данные, определяем нужные и «мусорные» страницы. С их учётом наполняем документ, не забывая про требования и инструкции. В итоге получаем готовый robots.txt вида:
Открываем доступ к стилям и скриптам для корректного проведения рендеринга. В противном случае не удастся правильно проиндексировать содержимое, что отрицательно отразится на позиции сайта.
Внедряем Clean-param при наличии динамических ссылок или передаче параметров в URL. Использование Craw-Delay также необязательно и вступает в силу в случае нагрузки на ресурс.
- Пустые строки допустимы только между группами инструкций для каждого агента.
- Как минимум, документ должен содержать агента и директиву на запрет.
- Для robots действуют уникальные правила в зависимости от вида сайта и CMS.
- Директивы действительны в течение длительного времени в случае потери краулером доступа к индексному файлу.
- Закрытая страница может оказаться в индексе, если ссылка на неё размещена на самом сайте или стороннем ресурсе.
Обратите внимание
Полное ограничение доступа краулерам — самая большая ошибка в использовании индексного файла. Поисковые системы перестанут сканировать ресурс, что может отрицательно отразиться на органическом трафике. Рекомендуем только дополнять и обновлять файл после тестирования каждого внесенного правила для своевременного исправления ошибок. При создании и внесении изменений в robots.txt применяем золотое правило: меньше строк, больше смысла.
В случае отказа от внедрения индексного файла краулеры будут сканировать ресурс без ограничений. При этом отсутствие такого файла не критично для малых сайтов. В противном случае, следует учитывать краулинговый бюджет и внедрять документ robots.
Важно: robots.txt — общедоступный файл. Пока существует вероятность индексации закрытого контента необходимо убедиться, что страницы с конфиденциальной информацией используют пароли и noindex.
Павел Лапаревич, SEO-специалист GUSAROV:
Гугл уже давно воспринимает robots.txt как рекомендацию и спокойно индексирует страницы с параметрами и служебные страницы сайта (страницы регистрации, авторизации, корзины и т.д.). Смысла от прописывания директив и траты времени на него становится всё меньше. Более действенный способ настройки: вывод <meta name=»robots» content=»noindex»>. Страницы с таким мета тегом в robots.txt не закрываются. Но все же есть преимущество этого файла над noindex. Краулеры перестают переобходить страницы, закрытые в robots.txt, а, следовательно, экономится краулинговый бюджет. Поэтому для больших сайтов лучше использовать robots.txt и постоянно следить за индексом, закрывая страницы, которые поисковики продолжают индексировать с помощью noindex.
- 7 мин
- 1162
- 56
Мы не просто знаем свое дело, мы живем им. Наша команда обладает всеми необходимыми инструментами и знаниями, чтобы помочь вам добиться роста и успеха. Мы быстро реагируем на изменения рынка, постоянно адаптируемся и внедряем новые методы и инструменты для достижения максимальных результатов.
Приятно, когда наш труд приносит плоды и получает заслуженное признание. Но для нас важнее всего видеть, как растут и развиваются наши Клиенты.
- — провести детальный SEO-аудит и вывести ваш сайт в топ поисковых систем
- — настроить эффективную контекстную рекламу, которая приведет к вам новых Клиентов
- — создать сайт, который будет работать на ваш бизнес с первых дней
- — запустить мощные рекламные кампании в соцсетях и существенно увеличить охват вашей аудитории
- — внедрить и оптимизировать CRM-систему для повышения эффективности работы