Файл Robots.txt для WordPress

Поисковые боты следуют инструкциям, содержащимися в файле robots.txt, который обязательно должен находиться в корневой директории, чтобы боты начинали индексацию страницы, читая находящийся в нем условия. Если в общих чертах, то это значит, что robots для WordPress допускает поисковых роботов к индексации, только тех директорий, которые разрешены им.

Говоря о возможностях и преимуществах файла robots.txt, то их достаточно много. К примеру, одни из важных это:

• оставляет за пределами индексирования некоторые разделы сайта, которые не предназначены для поиска. Это могут быть области, содержащие приватную информацию или определенного содержания контент;

• у файла есть возможность ограничить доступ разнообразным роботам, которые сканируют ресурс на наличие адресов электронной почты, чтобы в дальнейшем рассылать на них спам;

• можно с его помощью полностью запретить индексацию ресурса или сделать это частично. Это часто необходимо при проведении реконструкции или создании сайта.

Очень важно использовать правильно созданный файл robots для WordPress, так как от него будет зависеть то, насколько успешно пройдет индексация сайта. Такой, правильно созданный файл, скроет большое количество данных, которые дублируют основную информацию. Также он закроет от поисковиков все папки из внутренних директорий, которые не несут никакой нагрузки, а только могут создать лишний плагиат, что снизит сайт в итоговой выдаче поиска.

Создание правильного файла robots для WordPress

Чтобы файл robots принимали поисковые роботы Яндекса и Гугла, нужна определенная последовательность командных строк. Код, представленный ниже, будет оптимальным вариантом для этих поисковых систем. Итак, последовательность, с некоторыми допущения, должна быть такой:

• User-agent;
• Disallow;
• Allow;
• Sitemap;
• Host.

Теперь стоит рассмотреть каждый пункт более подробно:

1. Строка User-agent:, определяет какие поисковые роботы, должны следовать правилам, указанным в нижележащих строках. Если правила должны соблюдаться всеми роботами, то после двоеточия ставится знак «*». А если правила пишутся для соблюдения конкретным роботом, то после двоеточия прописываем его имя, Yandex или Googlebot.

2. Строка Disallow, содержит ссылки, по которым роботам запрещается ходить. Таких строк может быть несколько, и они будут начинаться с /feed (RSS сайта), /cgi-bin (список скриптов), /trackback или со значений страниц поиска.

3. Допущение относится именно к строке Allow, которая необязательно должна стоять после команды Disallow, она может прописываться и до нее. Эта строка содержит исключения, которые разрешают роботам индексировать всю информацию, находящуюся по ссылкам. В основном это относится к /uploads.

4. В строке Sitemap нужно указать путь к файлу с картой сайта, который должен быть в формате XML. Выглядит это, так: http:// */sitemap.xml. Сколько подобных файлов, столько и, должно быть, строк с указанием пути к ним.

5. Строка Host, должна содержать местонахождение главного зеркала сайта, чтобы роботы Яндекса, могли индексировать все сайты одинаково. Прописывать эту команду надо через пустую строку от всех остальных, независимо от того где она будет стоять, вначале или в конце.

Стоит напомнить, что подобная структура robots для WordPress, подходит только роботам Яндекса и Гугла. Для других поисковых систем, подобная последовательность некорректна, и будет иметь немного другой вид.

Недостатки системы

Система WordPress, имеет ряд недостатков, и одним из основных недочетов, является то, что в ней постоянно создается очень большое количество дублей главных страниц. При публикации контента на сайте, сразу же появляется его дубли, которые возникают в различных категориях поиска, в архивах, в метках, в ленте RSS, и еще во многих местах. Именно для исправления всех этих недостатков системы, и существует файл robots.txt.

Процесс скрытия ненужных дубликатов, достаточно прост. Необходимо создать в текстовом редакторе файл robots для WordPress, который работает не только с этой системой, но и с другими. Итак, последовательность создания:

• файл должен содержать определенный код, закрывающий от поисковых систем определенные страницы с помощью устанавливаемых фильтров. Также можно закрыть целые директории и папки;

• исключить возникновение зеркал, путем ввода в файл единственно верного адреса ресурса;

• указать нахождение карты сайта, чтобы процесс индексации, при появлении на сайте новых страниц, проходил быстрее.

На многих сайтах можно заметить различное содержимое файла robots.txt – это говорит о том что каждый настраивает его под себя. Но в общем обзоре начинка файла такая:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php

Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

После того как, все эти операции выполнены, файл необходимо загрузить в корневую папку WordPress, и он начнет работать.