robots.txt - текстовый файл, используемый поисковыми роботами для индексации сайта. Инструкции в файле указывают поисковикам какие страницы веб-ресурса индексировать, а какие запретить к индексации. Файл всегда должен находиться в корневой директории сайта и быть доступен по адресу site.ru/robots.txt
, где site.ru - адрес вашего сайта.
В самописных движках robots.txt составляется вручную или через специальные онлайн-сервисы. В cms concrete5 файл robots.txt поставляется вместе с системой: скачайте, распакуйте архив с cms и в корневой директории среди файлов и папок будет искомый файл.
В этой статье нет технических моментов составления файла robots.txt. Об этом можете прочитать в разделе помощи яндекса или справочном центре Google. На примере cms concrete5 я проанализирую исходный robots.txt, укажу на проблемы и попробую их решить, произведя настройку файла robots.txt.
Прежде всего нужно понимать, что не бывает универсального правильного файла robots.txt, который бы подошёл ко всем сайтам. Каждый веб-ресурс уникален, имеет свою структуру страниц и свои особенности. После прочтения данной статьи, возможно, вам потребуется дополнить файл разделами, для которых нужно разрешить или запретить индексацию на вашем конкретном сайте. Если будут вопросы или сомнения по поводу правильности составления robots.txt - напишите нам, мы поможем.
Если в текстовом редакторе открыть исходный файл robots.txt из архива c cms увидим содержимое:
User-agent: *
Disallow: /application/attributes
Disallow: /application/authentication
Disallow: /application/bootstrap
Disallow: /application/config
Disallow: /application/controllers
Disallow: /application/elements
Disallow: /application/helpers
Disallow: /application/jobs
Disallow: /application/languages
Disallow: /application/mail
Disallow: /application/models
Disallow: /application/page_types
Disallow: /application/single_pages
Disallow: /application/tools
Disallow: /application/views
Disallow: /ccm/system/captcha/picture
Директивы в файле запрещают индексирование картинок для ввода капчи, а так же разделы внутри директории /application
.
Прочитав справочные разделы с рекомендациями по настройке файла robots.txt становится понятно, что в нашем файле инструкции не работают в той мере, в какой должны. Многие разделы, которые поисковику не нужны остаются открыты. Нужна более точная настройка robots.txt.
Первая строчка robots.txt User-agent: *
сообщает, что все правила ниже будут применены для любой поисковой системы. По данным портала gs.statcounter.com лидер среди поисковиков в мире - Google. В России же эта картина отличается: пользователи в равной степени пользуются двумя поисковиками: Яндекс и Google. Также есть субъективное мнение оптимизаторов, что поисковые системы Яндекс и Google приветствуют указание именно их робота в User-agent, а не директиву общего плана *. Я не нашёл исследований, опровергающих или подтверждающих мнение о необходимости создания отдельных User-agent для Google и Яндекс, но ясно одно - отрицательного эффекта это не принесёт, поэтому учтём это пожелание и добавим в robots.txt три раздела: для Яндекса, Google и остальных поисковиков.
User-agent: Yandex
[Здесь будут инструкции только для Яндекса]
User-agent: Googelbot
[Здесь будут инструкции только для Google]
User-agent: *
[Здесь будут директивы для всех остальных поисковиков]
Disallow: /ccm/system/captcha/picture
Allow: /application/themes/*.css
Allow: /application/themes/*.js
Allow: /application/files
Allow: /application/themes
/dashboard
должен быть запрещёнПосле всех доработок конечный файл получается таким (при копировании содержимого файла прочитайте комментарии после знака «#» и выполните описанные действия):
User-agent: Yandex
Allow: /application/themes/*.css
Allow: /application/themes/*.js
Disallow: /login
Disallow: /search
Disallow: /index.php # оставьте строку только если в админке включены красивые урлы
Disallow: /dashboard
Disallow: /download_file
Allow: /application/files
Allow: /application/themes
Allow: /application/blocks
Disallow: /application
Disallow: /ccm/system/captcha/picture
User-agent: Googelbot
Allow: /application/themes/*.css
Allow: /application/themes/*.js
Disallow: /login
Disallow: /search
Disallow: /index.php
Disallow: /dashboard
Disallow: /download_file
Allow: /application/files
Allow: /application/themes
Allow: /application/blocks
Disallow: /application
Disallow: /ccm/system/captcha/picture
User-agent: *
Disallow: /login
Disallow: /search
Disallow: /index.php
Disallow: /dashboard
Disallow: /download_file
Allow: /application/files
Allow: /application/themes
Allow: /application/blocks
Disallow: /application
Disallow: /ccm/system/captcha/picture
Sitemap: https://site.ru/sitemap.xml # Проверьте, что файл существует и замените «site.ru» на адрес вашего сайта
Host: https://site.ru # Замените «site.ru» на адрес вашего сайта
Проверку правильности robots.txt можно сделать через специальный сервис в Яндекс.Вебмастере
Не забывайте, что каждый сайт индивидуален, поэтому подумайте какие разделы на вашем конкретном сайте не нужно индексировать. Это могут быть текст пользовательского соглашения, тексты лицензий, информация о доставке, страницы-дубли. Все эти страницы рекомендуем запретить в файле robots.txt. Если у вас остались вопросы - мы готовы ответить на них. Напишите нам.
2010-2024 © Сайт управляется бесплатной cms concrete5
Разработка сайта - команда Concrete5Russia
Продолжая просматривать сайт, вы даёте согласие на использование файлов cookie.
Подробнее