улучшаем robots.txt

Улучшаем robots.txt - создание правильного файла robots.txt для joomla, WordPress, добавляем в robots.txt директиву Host для Яндекса.

Улучшаем robots.txt - создание правильного файла robots.txt для Joomla, WordPress, добавляем в robots.txt директиву Host для ЯндексаПривет дорогие читатели сайта net-rabota.ru, в данной статье мы поговорим о правильном составлении файла robots.txt, этот файл играет очень важную роль, для правильной, быстрой индексации вашего проекта.

Для раскрутки  вашего основного проекта очень важно как индексируется данный проект и поэтому нужно знать правила написания robots.txt.

Если в файле robots.txt не указать определенные правила для поисковых роботов, то в индекс попадет множество мусорных страниц, и может произойти многократное дублирование информации вашего сайта (одна и та же статья доступна по разным ссылкам), что очень сказывается негативно, на вашем сайте.

Файл robots.txt – это текстовый файл располагающийся в корне вашего сайта, который служит для создания определенного поведения поисковых роботов.

 

Главные директивы файла robots.txt:

Директива 'User-agent' – показывает какому именно поисковому роботу будет даваться команда, разрешающие дерективы ('Allow') и запрещающие директивы ('disallow'), и директива 'sitemap' указывает поисковикам, где находится карта сайта, директива 'Host' – показывает, какое из зеркал вашего сайта является главным.

Правила написания robots.txt:

Директивы в файле robots.txt имеют следующий вид:

:

:

Файл robots.txt должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл robots.txt указывает поисковику на индексацию всего сайта.

Директива «User-agent» должна содержать название поискового робота. Пример написания директивы «User-agent», для всех поисковых роботов которые зашли на ваш сайт, выглядит так:

User-agent: *

Если вы хотите в директиве «User-agent» задать условия индексирования только для какого-то одного поискового робота, например, Rambler, то нужно написать так:

User-agent: StackRambler

Робот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler), как в приведенном выше примере. Здесь я приведу список наиболее часто встречаемых поисковых роботов, самых известных поисковиков:

  • Google       http://www.google.com     Googlebot
  • Yahoo!       http://www.yahoo.com      Slurp (или Yahoo! Slurp)
  • AOL           http://www.aol.com          Slurp
  • MSN           http://www.msn.com        MSNBot
  • Live           http://www.live.com         MSNBot
  • Ask            http://www.ask.com         Teoma
  • AltaVista    http://www.altavista.com  Scooter
  • Alexa         http://www.alexa.com       ia_archiver
  • Lycos         http://www.lycos.com       Lycos
  • Яндекс       http://www.ya.ru             yandex
  • Рамблер     http://www.rambler.ru      StackRambler
  • Мэйл.ру      http://mail.ru                  Mail.Ru
  • Aport          http://www.aport.ru         Aport
  • Вебальта     http://www.webalta.ru     WebAlta (WebAlta Crawler/2.0)

У крупных поисковых систем иногда кроме основных поисковых ботов имеются также отдельные боты для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям поисковых роботов вы можете почерпнуть на этом ресурсе.

Примеры использования директив (User-agent, Disallow, Host, Sitemap) в файле robots.txt

Приведу несколько простых примеров файла robots.txt с объяснением его действий.

1. Приведенный ниже код для файла robots.txt разрешает всем поисковым ботам индексировать весь сайт. Это задается пустой директивой Disallow.

User-agent: *

Disallow:

2. Следующий код, напротив, запрещает всем поисковикам индексировать сайт. Устанавливает это директива Disallow с «/» в поле значения.

User-agent: *

Disallow: /

3. Такой файл robots.txt будет запрещать всем поисковикам индексировать содержимое каталога /image/ (http://mysite.ru/image/ — путь к этому каталогу)

User-agent: *

Disallow: /image/

4. В приведенном ниже примере, для индексирования будут запрещены директория «image», а так же все файлы и директории, начинающиеся с символами «image», т. е. файлы: «image.htm», «images.htm», директории: «image», «images1», «image34» и т. д.:

User-agent: *

Disallow: /image

5. При описании путей для директив Allow-Disallow можно использовать символы '*' и '$', задавая, таким образом, определенные логические выражения. Символ '*' означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов с расширение «.aspx»:

User-agent: *

Disallow: *.aspx

Во избежание возникновения неприятных проблем с зеркалами сайта, рекомендуется добавлять в файл robots.txt директиву Host, которая указывает роботу Яндекса на главное зеркало вашего сайта (Директива Host, позволяющая задать главное зеркало сайта для Яндекса). По правилам написания robots.txt в записи для User-agent должна быть хотя бы одна директива Disallow (обычно ставят пустую, ничего не запрещающую):

User-agent: Yandex

Disallow:

Host: www.site.ru

либо

User-agent: Yandex

Disallow:

Host: site.ru

в зависимости от того что для вас оптимальнее.

Директива Sitemap указывает на местоположение карты сайта в формате .xml. В качестве параметра указывается путь к файлу, включая http://. Например:

Sitemap: http:// net-rabota.ru /sitemap.xml

Назначение и синтаксис мета-тега Robots

Существует альтернативный способ сообщить роботам поисковиков о том, можно ли индексировать данную конкретную страницу или нет. Для этого внутри тега «HEAD» нужной страницы, прописывается МЕТА-тег “Robots” и так повторяется для всех страниц, к которым нужно применить то или иное правило индексации. Пример применения мета-тега:

...

...

В этом случае роботы всех поисковых систем должны будут забыть об индексации этой страницы (об это говорит noindex в мета-теге) и анализе размещенных на ней ссылок (об этом говорит nofollow) .

Существуют только две пары директив: [no]index и [no]follow. Index указывают, может ли робот индексировать страницу. Follow — может ли он следовать по ссылкам со страницы.

Значения по умолчанию – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность всех директив или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.

Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack.

Давайте рассмотрим конкретные примеры файла robots.txt, предназначенного для разных движков сайта. Рассматриваться будут движки joomla, WordPress.

Естественно, что все два файла robots.txt, созданные для разных движков, будут существенно (если не сказать координально) отличаться друг от друга.

Будет в них, однако, один общий момент. Т.к. в рунете поисковик Яндекс имеет большой вес и нужно учитывать все нюансы его работы, то для корректной индексации вашего сайта именно Яндексом, нужно не забывать добавлять директиву Host в ваш файл robots.txt. Эта директива, в явной форме, укажет Яндексу главное зеркало вашего сайта.

Для указания этой директивы советуют использовать отдельную директиву User-agent, предназначенную только для Яндекса (User-agent: Yandex).

Это связано с тем, что остальные поисковики могут не понимать директиву Host и, соответственно, ее включение в директиву User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям.

Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поисковиков — это вещь в себе, поэтому лучше сделать так, как советуют.

Но в этом случае вам придется дублировать в директиве User-agent: Yandex все те правила, что вы задали в директиве User-agent: *. Если вы оставите директиву User-agent: Yandex с пустой директивой Disallow:, то таким образом вы разрешите Яндексу индексировать все содержимое вашего сайта.

Прежде чем перейти к рассмотрению конкретных вариантов файла robots.txt, хочу вам напомнить, что проверить работу своего файла robots.txt вы можете в панелях вебмастеров поисковых систем Яндекса, Google.

Оптимальный файл robots.txt для сайта на joomla:

Рекомендованный файл robots.txt выглядит так:

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

В принципе, здесь практически все учтено и работает этот файл robots.txt для Joomla хорошо, не пуская поисковики туда, куда не надо ходить.

Единственное, здесь следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, а так же указать путь к файлу Sitemap. Поэтому в окончательном виде файл, по-моему мнению, должен выглядеть так:

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

User-agent: Yandex

Disallow: /administrator/

Disallow: /cache/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Host: vash_sait.ru

Sitemap:

https://net-rabota.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

Вы  можете добавлять свои правила в файл robots.txt, но после этого обязательно протестируйте — достигли ли вы желаемого результата.

Для это используйте соответствующие инструменты панелей вебмастеров поисковиков.


Оптимальный файл robots.txt для блога на WordPress:

Не буду приводить пример файла robots.txt для WordPress, который рекомендуют разработчики. Вы и сами можете его посмотреть.

Многие блогеры вообще не ограничивают роботов поисковых систем в индексации их сайтов. Чаще всего можно встретить файл robots.txt автоматически заполненный плагином Google XML Sitemaps, в котором присутствует лишь ссылка на адрес карты сайта для блога, созданной этим плагином.

Но, по-моему, все-таки следует ограничить поисковики в рысканье по файлам вашего блога и поэтому, здесь я приведу версию своего файла robots.txt для блога на WordPress, а вам уже решать, использовать его в таком виде, использовать свой вариант или же вообще не использовать robots.txt:

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Host: net-rabota.ru

Sitemap: https://net-rabota.ru/sitemap.xml.gz

Sitemap: https://net-rabota.ru/sitemap.xml

Пока что индексация блога при таком варианте файла robots.txt меня полностью устраивает.

На этом все!


Ознакомитесь со следующими объявлениями:

Рекомендую также ознакомиться со следующими статьями:

Похожие статьи:
  • WordPress удаление скрытых ссылок с тем - при помощи плагина TAC (Theme Authenticity Checker) Привет всем читателям блога о заработке в сети, сегодня я хочу рассказать о проблеме скрытых ссылок в темах WordPress, как их найти и удалить, и рассказать о очень нужном плагине для WordPress TAC (Theme Authenticity Checker). Вообщем расскажу почему меня заинтересовала тема: WordPress удаление скрытых ссылок с тем - при помощи плагина TAC (Theme Authenticity Checker), както раз я создал очередн…
    ', 400);" onmouseout="hidettip();">WordPress удаление скрытых ссылок с тем - при помощи плагина TAC (Theme Aut…
  • Joomla создание шаблонов при помощи программы Artisteer, или создание шаблонов и тем на всех популярных движках для сайта WordPress, Drupal и т.д. без знания HTML и CSS. Статьи для начинающего вебмастера: Карта сайта на joomla при помощи расширения xmap вставка Joomla модуля в материал Вставка любого кода сразу во все статьи на Joomla Как вставить код счетчика в joomla Как настроить RSS в Joomla SEF в joomla - настройка ЧПУ закрываем внешние ссылки от индексации Все о иконке Favico…
    ', 400);" onmouseout="hidettip();">Joomla создание шаблонов при помощи программы Artisteer, или создание шабло…
  • Переделываем шаблоны Joomla и Wordpress при помощи сервиса boss-cms.ru/services – или уникализация шаблонов. Здравствуйте уважаемые читатели блога Net-Rabota.ru. Продолжаю серию статей в рамках рубрики “Сервисы” в предыдущей статье мы с вами рассмотрели "сервис по проверке уникальности картинок", также можете ознакомиться со статьей "как уникализировать картинку (изображение)" и статью об "уникализации контента - Размножение или генерация статей - делаем из одной статьи тысячу". В следующей …
    ', 400);" onmouseout="hidettip();">Переделываем шаблоны Joomla и Wordpress при помощи сервиса boss-cms.ru/serv…
  • Повышаем свой заработок в Sape и на других биржах ссылок на Joomla. Здравствуй весь люд зашедший на сайт net-rabota.ru! Если вы занимаетесь продажей ссылок на любой из бирж, и работаете на движке сайтов Joomla, то эта статья поможет удвоить ваши прибыли! Вообщем не буду лить много воды, сразу в бой!
    ', 400);" onmouseout="hidettip();">Стратегия продажи ссылок на joomla
  • Как снизить нагрузку на сервер движком Joomla. Привет всем вебмастерам работающим с движком Joomla, админ сайта net-rabota.ru приветствует вас!, В этой статье мы рассмотрим проблему перегрузки сервера нашим любимым движком Joomla. Не секрет что большим недостатком этого движка является сильная нагрузка на сервер, рано или поздно при средней посещаемости вашего сайта возникнет перегруз сервера, и злобный хостер начнет угрожать вам отключением аккаунта, для того чтобы вы сменили тарифный план…
    ', 400);" onmouseout="hidettip();">Как снизить нагрузку на сервер движком Joomla
  • Строим сайт часть №2
  • Создание сайта на движках joomla и Wordpress - заказ домена и хостинга - ст…

ПОДПИСАТЬСЯ НА RSS

РАЗДЕЛЫ


Notice: Undefined variable: val in /home/users2/m/maks131313/domains/net-rabota.ru/components/com_googlesearch/googlesearch.lib.php on line 128

Notice: Undefined property: stdClass::$mod_searchfield_padding_left in /home/users2/m/maks131313/domains/net-rabota.ru/components/com_googlesearch/googlesearch.lib.phpon line 312

Notice: Undefined property: stdClass::$mod_searchfield_padding_right in /home/users2/m/maks131313/domains/net-rabota.ru/components/com_googlesearch/googlesearch.lib.phpon line 312

Notice: Undefined property: stdClass::$mod_searchfield_padding_top in /home/users2/m/maks131313/domains/net-rabota.ru/components/com_googlesearch/googlesearch.lib.phpon line 312

Notice: Undefined property: stdClass::$mod_searchfield_padding_bottom in /home/users2/m/maks131313/domains/net-rabota.ru/components/com_googlesearch/googlesearch.lib.phpon line 312
Webnet-rabota.ru

Notice: Undefined index: q in /home/users2/m/maks131313/domains/net-rabota.ru/components/com_googlesearch/googlesearch.lib.php on line 291

Бесплатная e-mail подписка на новости блога.

Комментарии   

Administrator » 01.03.2011 19:06

да как я могу для вас составить оптимальный роботс? вы сами должны его составить в зависимости какие цели вы преследуете, проанализировав свой сайт, через панели вебмастеров, если есть дубли на страницы вашего сайта и т.д. Потом на каком движке работает ваш сайт? для каждого движка свой robots.txt, ваш сайт вообще на юкоз
0

Administrator

Павел » 01.03.2011 14:49

Подскажите оптимальный robots.txt для моего сайта =xaljawa.ru
0

Павел

Юрий » 14.02.2011 09:37

Спасибо! Нужная информация!
0

Юрий

Добавить комментарий


Обновить