САМОЕ ПОПУЛЯРНОЕ
- постинг в соц.закладки
- XRumer 4.0 Platinum Edition
- каталоги с высоким тиц и pr
- Софт для сбора бонусов
- улучшаем robots.txt
- Скачать, установить и настроить фаервол Комодо (Comodo)
- Как снизить нагрузку на сервер движком Joomla
- заработок на комментариях в системе SavePR
- Платёжные системы
- Новый вид заработка в сети. Заработок на просмотре рекламных видео роликов на сервисе Платио
- Интернет заработок на выполнении заданий в сервисе Workzilla – биржа виртуальной помощи
- Делаем из 1 статьи 1000
ПОСЛЕДНИЕ НОВОСТИ
- Заработок на баннерах в AdWeber
- Проверка доступности сайта с Яндекс метрика
- Проверка доступности сайта с сервисом uptimerobot.com
- Maketrust - заработок на трастовых сайтах.
- Заработок на ссылках с биржей вечных ссылок gogetlinks
- Проверка доступности сайта
- Упоминатор - заработок в сети
- Шаблоны jcomments
- Авто обновление сайта - бесплатная раскрутка сайта организацией комментариев на сайте
- WordPress удаление скрытых ссылок с тем - при помощи плагина TAC (Theme Authenticity Checker)
- Заработок вКонтакте - через сервис SocialTools
- Заработок в сети на Форумок
Похожие материалы
улучшаем robots.txt
Улучшаем robots.txt - создание правильного файла robots.txt для joomla, WordPress, добавляем в robots.txt директиву Host для Яндекса.
Привет дорогие читатели сайта net-rabota.ru, в данной статье мы поговорим о правильном составлении файла robots.txt, этот файл играет очень важную роль, для правильной, быстрой индексации вашего проекта.
Для раскрутки вашего основного проекта очень важно как индексируется данный проект и поэтому нужно знать правила написания robots.txt.
Если в файле robots.txt не указать определенные правила для поисковых роботов, то в индекс попадет множество мусорных страниц, и может произойти многократное дублирование информации вашего сайта (одна и та же статья доступна по разным ссылкам), что очень сказывается негативно, на вашем сайте.
Файл robots.txt – это текстовый файл располагающийся в корне вашего сайта, который служит для создания определенного поведения поисковых роботов.
Главные директивы файла robots.txt:
Директива 'User-agent' – показывает какому именно поисковому роботу будет даваться команда, разрешающие дерективы ('Allow') и запрещающие директивы ('disallow'), и директива 'sitemap' указывает поисковикам, где находится карта сайта, директива 'Host' – показывает, какое из зеркал вашего сайта является главным.
Правила написания robots.txt:
Директивы в файле robots.txt имеют следующий вид:
:
:
Файл robots.txt должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл robots.txt указывает поисковику на индексацию всего сайта.
Директива «User-agent» должна содержать название поискового робота. Пример написания директивы «User-agent», для всех поисковых роботов которые зашли на ваш сайт, выглядит так:
User-agent: *
Если вы хотите в директиве «User-agent» задать условия индексирования только для какого-то одного поискового робота, например, Rambler, то нужно написать так:
User-agent: StackRambler
Робот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler), как в приведенном выше примере. Здесь я приведу список наиболее часто встречаемых поисковых роботов, самых известных поисковиков:
- Google http://www.google.com Googlebot
- Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)
- AOL http://www.aol.com Slurp
- MSN http://www.msn.com MSNBot
- Live http://www.live.com MSNBot
- Ask http://www.ask.com Teoma
- AltaVista http://www.altavista.com Scooter
- Alexa http://www.alexa.com ia_archiver
- Lycos http://www.lycos.com Lycos
- Яндекс http://www.ya.ru yandex
- Рамблер http://www.rambler.ru StackRambler
- Мэйл.ру http://mail.ru Mail.Ru
- Aport http://www.aport.ru Aport
- Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)
У крупных поисковых систем иногда кроме основных поисковых ботов имеются также отдельные боты для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям поисковых роботов вы можете почерпнуть на этом ресурсе.
Примеры использования директив (User-agent, Disallow, Host, Sitemap) в файле robots.txt
Приведу несколько простых примеров файла robots.txt с объяснением его действий.
1. Приведенный ниже код для файла robots.txt разрешает всем поисковым ботам индексировать весь сайт. Это задается пустой директивой Disallow.
User-agent: *
Disallow:
2. Следующий код, напротив, запрещает всем поисковикам индексировать сайт. Устанавливает это директива Disallow с «/» в поле значения.
User-agent: *
Disallow: /
3. Такой файл robots.txt будет запрещать всем поисковикам индексировать содержимое каталога /image/ (http://mysite.ru/image/ — путь к этому каталогу)
User-agent: *
Disallow: /image/
4. В приведенном ниже примере, для индексирования будут запрещены директория «image», а так же все файлы и директории, начинающиеся с символами «image», т. е. файлы: «image.htm», «images.htm», директории: «image», «images1», «image34» и т. д.:
User-agent: *
Disallow: /image
5. При описании путей для директив Allow-Disallow можно использовать символы '*' и '$', задавая, таким образом, определенные логические выражения. Символ '*' означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов с расширение «.aspx»:
User-agent: *
Disallow: *.aspx
Во избежание возникновения неприятных проблем с зеркалами сайта, рекомендуется добавлять в файл robots.txt директиву Host, которая указывает роботу Яндекса на главное зеркало вашего сайта (Директива Host, позволяющая задать главное зеркало сайта для Яндекса). По правилам написания robots.txt в записи для User-agent должна быть хотя бы одна директива Disallow (обычно ставят пустую, ничего не запрещающую):
User-agent: Yandex
Disallow:
Host: www.site.ru
либо
User-agent: Yandex
Disallow:
Host: site.ru
в зависимости от того что для вас оптимальнее.
Директива Sitemap указывает на местоположение карты сайта в формате .xml. В качестве параметра указывается путь к файлу, включая http://. Например:
Sitemap: http:// net-rabota.ru /sitemap.xml
Назначение и синтаксис мета-тега Robots
Существует альтернативный способ сообщить роботам поисковиков о том, можно ли индексировать данную конкретную страницу или нет. Для этого внутри тега «HEAD» нужной страницы, прописывается МЕТА-тег “Robots” и так повторяется для всех страниц, к которым нужно применить то или иное правило индексации. Пример применения мета-тега:
...
В этом случае роботы всех поисковых систем должны будут забыть об индексации этой страницы (об это говорит noindex в мета-теге) и анализе размещенных на ней ссылок (об этом говорит nofollow) .
Существуют только две пары директив: [no]index и [no]follow. Index указывают, может ли робот индексировать страницу. Follow — может ли он следовать по ссылкам со страницы.
Значения по умолчанию – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность всех директив или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.
Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack.
Давайте рассмотрим конкретные примеры файла robots.txt, предназначенного для разных движков сайта. Рассматриваться будут движки joomla, WordPress.
Естественно, что все два файла robots.txt, созданные для разных движков, будут существенно (если не сказать координально) отличаться друг от друга.
Будет в них, однако, один общий момент. Т.к. в рунете поисковик Яндекс имеет большой вес и нужно учитывать все нюансы его работы, то для корректной индексации вашего сайта именно Яндексом, нужно не забывать добавлять директиву Host в ваш файл robots.txt. Эта директива, в явной форме, укажет Яндексу главное зеркало вашего сайта.
Для указания этой директивы советуют использовать отдельную директиву User-agent, предназначенную только для Яндекса (User-agent: Yandex).
Это связано с тем, что остальные поисковики могут не понимать директиву Host и, соответственно, ее включение в директиву User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям.
Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поисковиков — это вещь в себе, поэтому лучше сделать так, как советуют.
Но в этом случае вам придется дублировать в директиве User-agent: Yandex все те правила, что вы задали в директиве User-agent: *. Если вы оставите директиву User-agent: Yandex с пустой директивой Disallow:, то таким образом вы разрешите Яндексу индексировать все содержимое вашего сайта.
Прежде чем перейти к рассмотрению конкретных вариантов файла robots.txt, хочу вам напомнить, что проверить работу своего файла robots.txt вы можете в панелях вебмастеров поисковых систем Яндекса, Google.
Оптимальный файл robots.txt для сайта на joomla:
Рекомендованный файл robots.txt выглядит так:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
В принципе, здесь практически все учтено и работает этот файл robots.txt для Joomla хорошо, не пуская поисковики туда, куда не надо ходить.
Единственное, здесь следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, а так же указать путь к файлу Sitemap. Поэтому в окончательном виде файл, по-моему мнению, должен выглядеть так:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru
Sitemap:
https://net-rabota.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Вы можете добавлять свои правила в файл robots.txt, но после этого обязательно протестируйте — достигли ли вы желаемого результата.
Для это используйте соответствующие инструменты панелей вебмастеров поисковиков.
Оптимальный файл robots.txt для блога на WordPress:
Не буду приводить пример файла robots.txt для WordPress, который рекомендуют разработчики. Вы и сами можете его посмотреть.
Многие блогеры вообще не ограничивают роботов поисковых систем в индексации их сайтов. Чаще всего можно встретить файл robots.txt автоматически заполненный плагином Google XML Sitemaps, в котором присутствует лишь ссылка на адрес карты сайта для блога, созданной этим плагином.
Но, по-моему, все-таки следует ограничить поисковики в рысканье по файлам вашего блога и поэтому, здесь я приведу версию своего файла robots.txt для блога на WordPress, а вам уже решать, использовать его в таком виде, использовать свой вариант или же вообще не использовать robots.txt:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: net-rabota.ru
Sitemap: https://net-rabota.ru/sitemap.xml.gz
Sitemap: https://net-rabota.ru/sitemap.xml
Пока что индексация блога при таком варианте файла robots.txt меня полностью устраивает.
На этом все!
Ознакомитесь со следующими объявлениями:
Рекомендую также ознакомиться со следующими статьями:
Notice: Undefined index: q in /home/users2/m/maks131313/domains/net-rabota.ru/components/com_googlesearch/googlesearch.lib.php on line 291