Настройка robots txt

Дата:
Автор: admin

Правильный Robots.txt для cms

robots.txt - текстовый файл, используемый поисковыми роботами для индексации сайта. Инструкции в файле указывают поисковикам какие страницы веб-ресурса индексировать, а какие запретить к индексации. Файл всегда должен находиться в корневой директории сайта и быть доступен по адресу site.ru/robots.txt, где site.ru - адрес вашего сайта.

В самописных движках robots.txt составляется вручную или через специальные онлайн-сервисы. В cms concrete5 файл robots.txt поставляется вместе с системой: скачайте, распакуйте архив с cms и в корневой директории среди файлов и папок будет искомый файл.

В этой статье нет технических моментов составления файла robots.txt. Об этом можете прочитать в разделе помощи яндекса или справочном центре Google. На примере cms concrete5 я проанализирую исходный robots.txt, укажу на проблемы и попробую их решить, произведя настройку файла robots.txt.

Прежде всего нужно понимать, что не бывает универсального правильного файла robots.txt, который бы подошёл ко всем сайтам. Каждый веб-ресурс уникален, имеет свою структуру страниц и свои особенности. После прочтения данной статьи, возможно, вам потребуется дополнить файл разделами, для которых нужно разрешить или запретить индексацию на вашем конкретном сайте. Если будут вопросы или сомнения по поводу правильности составления robots.txt - напишите нам, мы поможем.

Содержимое исходного файла

Если в текстовом редакторе открыть исходный файл robots.txt из архива c cms увидим содержимое:

User-agent: *
Disallow: /application/attributes
Disallow: /application/authentication
Disallow: /application/bootstrap
Disallow: /application/config
Disallow: /application/controllers
Disallow: /application/elements
Disallow: /application/helpers
Disallow: /application/jobs
Disallow: /application/languages
Disallow: /application/mail
Disallow: /application/models
Disallow: /application/page_types
Disallow: /application/single_pages
Disallow: /application/tools
Disallow: /application/views
Disallow: /ccm/system/captcha/picture

Проблемы в исходном файле robots.txt

Директивы в файле запрещают индексирование картинок для ввода капчи, а так же разделы внутри директории /application.

Прочитав справочные разделы с рекомендациями по настройке файла robots.txt становится понятно, что в нашем файле инструкции не работают в той мере, в какой должны. Многие разделы, которые поисковику не нужны остаются открыты. Нужна более точная настройка robots.txt.

Первая строчка robots.txt User-agent: * сообщает, что все правила ниже будут применены для любой поисковой системы. По данным портала gs.statcounter.com лидер среди поисковиков в мире - Google. В России же эта картина отличается: пользователи в равной степени пользуются двумя поисковиками: Яндекс и Google. Также есть субъективное мнение оптимизаторов, что поисковые системы Яндекс и Google приветствуют указание именно их робота в User-agent, а не директиву общего плана *. Я не нашёл исследований, опровергающих или подтверждающих мнение о необходимости создания отдельных User-agent для Google и Яндекс, но ясно одно - отрицательного эффекта это не принесёт, поэтому учтём это пожелание и добавим в robots.txt три раздела: для Яндекса, Google и остальных поисковиков.

User-agent: Yandex
[Здесь будут инструкции только для Яндекса]

User-agent: Googelbot
[Здесь будут инструкции только для Google]

User-agent: *
[Здесь будут директивы для всех остальных поисковиков]

Что можно доработать в robots.txt 

  • в исходном файле robots.txt были закрыты почти все подпапки внутри директории /application. Это излишне. Правильнее будет закрыть всю папку /application, но потом разрешить нужные разделы
  • картинки для ввода капчи запрещаем к индексированию как в исходном файле, но прописываем эту строку для трёх разделов Disallow: /ccm/system/captcha/picture
  • для правильного отображения и проверки мобильной версии сайта Яндекс и Google требуют явно открывать для индексирования css и js файлы; эти файлы нужны только поисковым роботам, в выдаче они нигде отображаться не будут. Пропишем для Яндекса и Google соответствующие директивы
Allow: /application/themes/*.css
Allow: /application/themes/*.js
  • не забываем про индексацию картинок. Разрешим разделы, где могут находиться картинки
Allow: /application/files
Allow: /application/themes
  • админка не представляет интереса для поисковых систем, поэтому раздел /dashboard должен быть запрещён
  • если на сайте включены красивые урлы, то индексный файл index.php в адресной строке не используется и урлы, содержащие «index.php» запрещаем. Если же красивые урлы на сайте не включены и вы не планируете их включать, то индексный файл запрещать не следует
  • Закроем от индексирования другие разделы, которые являются служебными или не несут никакой ценности для поисковой системы: страница поиска, страница авторизации и регистрации
  • В конце файла добавляем директивы Host и Sitemap (при этом файл sitemap.xml должен быть создан. Если его нет - запустите задачу по генерации карты сайта в разделе «Панель управления > Настройки системы > Оптимизация > Задачи» ).

После всех доработок конечный файл получается таким (при копировании содержимого файла прочитайте комментарии после знака «#» и выполните описанные действия):

    
User-agent: Yandex
Allow: /application/themes/*.css
Allow: /application/themes/*.js
Disallow: /login
Disallow: /search
Disallow: /index.php # оставьте строку только если в админке включены красивые урлы
Disallow: /dashboard
Disallow: /download_file
Allow: /application/files
Allow: /application/themes
Allow: /application/blocks
Disallow: /application
Disallow: /ccm/system/captcha/picture

User-agent: Googelbot
Allow: /application/themes/*.css
Allow: /application/themes/*.js
Disallow: /login
Disallow: /search
Disallow: /index.php
Disallow: /dashboard
Disallow: /download_file
Allow: /application/files
Allow: /application/themes
Allow: /application/blocks
Disallow: /application
Disallow: /ccm/system/captcha/picture

User-agent: *
Disallow: /login
Disallow: /search
Disallow: /index.php
Disallow: /dashboard
Disallow: /download_file
Allow: /application/files
Allow: /application/themes
Allow: /application/blocks
Disallow: /application
Disallow: /ccm/system/captcha/picture

Sitemap: https://site.ru/sitemap.xml # Проверьте, что файл существует и замените «site.ru» на адрес вашего сайта
Host: https://site.ru # Замените «site.ru» на адрес вашего сайта
    

Как проверить robots.txt

Проверку правильности robots.txt можно сделать через специальный сервис в Яндекс.Вебмастере

Заключение

Не забывайте, что каждый сайт индивидуален, поэтому подумайте какие разделы на вашем конкретном сайте не нужно индексировать. Это могут быть текст пользовательского соглашения, тексты лицензий, информация о доставке, страницы-дубли. Все эти страницы рекомендуем запретить в файле robots.txt. Если у вас остались вопросы - мы готовы ответить на них. Напишите нам.

Загрузка беседы

Продолжая просматривать сайт, вы даёте согласие на использование файлов cookie.

Подробнее