search 2013 adfgs

Делаем правильный Robots.txt для WordPress

Наверняка о Robots.txt вы уже слышали. И даже, возможно, он уже есть у вас на сайте. Но правильное ли у него содержание? Не будет ли он ставить палки в колеса вездесущему Яндексу, мешая правильно индексировать ваш сайт? Вот во всем этом мы и будем сегодня разбираться.

Делаем правильный Robots.txt для WordPress

Итак, что такое Robots.txt? Это прямая инструкция для поисковиков, рассказывающая о том, куда на вашем сайте следует ходить, а куда – нет. Обычно внутри этого файла есть отдельный раздел для Яндекса, славящегося своими заскоками в плане индексирования. Лежит этот файлик в корневом каталоге вашего сайта. То есть если у вас на хостинге один сайт – то его следует искать (или закинуть, если его у вас еще нет) в директорию с названием вроде public_html или www (везде по-разному). Если же сайтов на одном хостинге несколько, то нужно внутри public_html или www найти папку с названием нужного сайта и закинуть файл уже туда.

Вообще в сети ходит множество дискуссий о том, что следует закрывать от поисковиков в Robots.txt, а что – нет. И, в принципе, сразу несколько вариантов вполне могут быть правильными. Я покажу вам свой, и, могу сказать, работает он очень даже хорошо – все отлично индексируется, посещаемость растет, трафик с поисковиков – тоже.

Закрывать от поисковиков следует служебные разделы, разделы категорий, rss-потоки и еще некоторые вещи. Насчет того, закрывать теги или нет, нет единого мнения, кто-то советует закрывать, кто-то – нет, я лично не закрываю. Итак, вот вам мой Robots.txt:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
 
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: budni-webmastera.ru
 
Sitemap: /sitemap.xml

Сейчас я вам объясню, где здесь что. Если вам это не особо интересно, то просто скопируйте вышенаписанный текст, сохраните это в файл Robots.txt и закиньте себе на сервер. Только не забудьте вместо моего имени сайта вписать свое. Ну а если интересно, то читайте.

Итак, User-Agent. Это имя поискового робота, для которого будет нижеследующая инструкция вплоть до конца абзаца. Вот, к примеру, в начала файла есть User-agent: * – то есть инструкция для всех роботов. Ну а в середине – User-agent: Yandex. Это, как вам понятно, только для Яши. Вот какие у наших, рунетовских, роботов имена:
Yandex
YandexBlog
Googlebot
StackRambler
msnbot (это бот Bing)

Далее вы видите много-много Disallow - это то, что мы запрещаем к индексации. Есть еще и Allow - то есть мы это безоговорочно разрешаем индексировать, но у меня в файле этого нет, ибо и так понятно, что разрешено все, что не запрещено. К слову, Allow понимают только Яндекс и Гугл, остальные поисковики его в упор не видят.

Если вы захотите использовать директиву Allow, то она должна идти до Disallow, и еще между ними не должно быть пустых строк – ведь именно пробелы между абзацами и говорят роботу о том, что инструкция кончилась. И после User-Agent тоже пустых строк быть не должно. Только перед следующим User-Agent.

Host - это у нас главное зеркало сайта, где мы можем указать, с www или без www его воспринимать. Эту директиву понимает исключительно Яндекс, так что, как видите, она в списке инструкций исключительно для него. Правда, по словам самого яндекса, ее наличие – это еще не гарантия того, что он все правильно для себя уяснит. Но попытаться до него это донести все же стоит :)

Ну и, наконец, Sitemap - это путь к карте сайта. Я уже писала вам о том, как сделать карту сайта при помощи плагина Google XML Sitemaps, и поэтому она у вас наверняка уже есть (а если нет- то я рекомендую вам как можно быстрее ею обзавестись). Как правило, она тоже лежит в корневом каталоге сайта. Но если мы укажем прямой путь к ней, то поисковику будет найти еще очень просто.

Вот теперь, надеюсь, вам все понятно, и в Robots.txt вы отлично ориентируетесь. Спасибо за внимание, на сегодня у меня все! :)

Удачного вебмастеринга,
ваша Ирина

Понравился материал? Добавьте на него ссылку в социальных сервисах или нажмите "Мне нравится":


Отзывов: 5

  1. Простой пишет:

    А нужно ли закрывать от индексации комментарии для яндекса и гугла? И что будет если не закрывать?

  2. Всеволод пишет:

    Все понял . Не понял только одного-где этот самый Robots найти , в каком месте сайта . Завтра попробую разобраться . Почему то Яндекс не индексирует мой сайт . В Google много страниц , а в Яндексе только одна. вот и хочу в этом разобраться , уже несколько раз пытался – не получается . Может с вашей помощью разберусь. И накак не могу определить место для rss ленты С уважением

  3. Ирина пишет:

    Всеволод, robots.txt лежит в корневом каталоге вашего сайта на FTP.

  4. Ирина пишет:

    Я не закрываю. Ничего страшного не происходит :) Даже был случай, когда в комментарии задали вопрос, я на него ответила, и потом пользователи, искавшие ответ именно на этот вопрос, шли с поисковиков достаточно активно.

  5. Robots.txt для Joomla | Будни Вебмастера пишет:

    [...] касалась – писала о том, как составить правильный Robots.txt для WordPress. Сегодня же я расскажу, как сделать этот самый файл для [...]

Ваш отзыв

Пожалуйста, пишите только по делу. Комментарии, содержащие бред, не относящийся к записи, одобрены не будут! И помните, что все ваши ссылки все равно будут закрыты от индексирования, так что любителям повышать таким образом ТИЦ лучше не беспокоиться.





 

Внимание: Комментарии модерируются, и это может вызвать задержку их публикации. Отправлять комментарий заново не требуется.