Борьба с дублями страниц сайта на joomla (страницы с окончанием index.php) и избавление от различных не нужных страниц (закрытие от индексации поисковиками, профильных, поисковых страниц) при помощи robots.txt – статья 4.
Часть 1 - "Борьба с дублями главной страницы на сайтовом движке joomla".
Часть 2 - "Дубли страниц сайта домена с www и без".
Часть 5 - "Проиндексированные страницы google"
Часть 6 - "Дубли Joomla с разными категориями и id материала"
Часть 7 - "Избавляемся от дублей страниц при помощи файла .htaccess"
Привет вебмастера вы находитесь на сайте Net-Rabota.ru, сегодня я продолжаю серию статей по борьбе с дублями страниц на Joomla.
Итак, все вебмастера работающие с движком для сайтов joomla должны следить за страницами своего сайта, которые попали в индекс поисковых систем, не исключено что в индекс поисковиков попало много дублей страниц и всякого рода ненужных (мусорных страниц).
А если вы используете в joomla sef (человеко понятные ссылки), то дублей может быть очень много, поэтому за ними нужно следить и закрывать их от поисковиков в файле robots.txt
Лично я использую в joomla функцию sef, и у меня много дублей которые я закрываю от индексации поисковиками в robots.txt, частенько попадаются дубли с окончанием index.php, даже нашел дубль главной страницы вида: net-rabota.ru/index.php
Поэтому встал вопрос о закрытии дублей с index.php в файле robots.txt, для этого нужно добавить директиву Disallow: /index.php, это закроет все ссылки, которые имеют вид sait.ru/index.php.
Кто не знает, что такое robots.txt и с чем его едят, читай статью: ”Улучшаем robots.txt ”.
Но при добавлении директивы Disallow: /index.php, будьте внимательны, лично у меня карта сайта имеет вот такой вид net-rabota.ru/index.php?option=com_xmap&sitemap=1, и выше указанным действием я закрыл от глаз поисковиков и кару сайта, но выход есть нужно в robots.txt добавить такую директиву: Allow: /index.php?option=com_xmap&sitemap=1.
Эти два действия запретят к индексации все страницы вашего сайта с продолжением index.php (то есть все дубли страниц с приставкой index.php), кроме /index.php?option=com_xmap&sitemap=1, вот строки которые я добавил в robots.txt:
Allow: /index.php?option=com_xmap&sitemap=1
Disallow: /index.php
Если вам нужно еще разрешить к индексации какие либо страницы c продолжением index.php (ведь директива Disallow: /index.php, запретила их к индексации), то добавьте в robots.txt, еще одну строчку Allow: /index.php?start, это даст понять поисковикам, что все страницы с продолжением /index.php?star………….., можно индексировать.
Также в файле robots.txt, нужно запретить к индексации, разного рада ненужные страницы, (допустим поисковые), у меня много не нужных страниц такого вида https://Net-Rabota.ru/soft/index.php?option=com_search&searchword=покупки&searchphrase=all&ordering=newest, и много других, чтобы запретить к индексацию страницу данного вида в robots.txt, добавляем директиву: Disallow: //soft/index.php?option=com.
И таким образом вы должны в обязательном порядке избавиться от всех дублей и мусорных страниц, и после этого индексация вашего сайта будет происходить быстрее и легче, и даже ваш сайт может подняться на несколько ступеней вверх в поисковой выдаче, и раскрутка вашего сайта будет проходить эффективней.
Ну на этом все! думаю, что вам из этой статьи стало понятно, как закрыть от индексации дубли страниц в robots.txt, тех кого интересует данная тема подписывайтесь на мою RSS ленту.