Clean-param параметр robots.txt для Яндекса или как удалить дубли страниц вида - utm_campaign и utm_medium utm_source.
Привет посетители блога Net-Rabota.ru, сегодня продолжу рассказ связанных с дублированием страниц, а конкретно расскажу про параметр Clean-param для robots.txt созданный поисковой системой Яндекс специально для борьбы с дублями страниц вида utm_campaign и utm_medium и utm_source и т.д.
Ознакомьтесь с сериалом статей, посвященным дублям страниц:
Часть 1 - "Борьба с дублями главной страницы на сайтовом движке joomla".
Часть 2 - "Дубли страниц сайта домена с www и без".
Часть 3 - "Как узнать проиндексированные страницы Яндексом и поиск дублей среди них".
Часть 5 - "Проиндексированные страницы google"
Часть 6 - "Дубли Joomla с разными категориями и id материала"
Часть 7 - "Избавляемся от дублей страниц при помощи файла .htaccess"
Частенько встречается проблема попадания в индекс яндекса страниц дублей, путем добавления к url адесу страницы вашего сайта разных параметров, проверить все проиндексированные страницы вашего сайта можно в панели инструментов вебмастера от Яндекса.
Допустим Google Analytics, при анализе сайтов, преобразует страницы путем добавления параметров: utm_campaign и utm_medium и utm_source, теперь допустим, что эти страницы какимто загадочным путем попали в индекс яндекса, даже может быть какойто добрый человек специально добавляет такие страницы в аддурилку яндекса, а яндекс слепо индексирует эти страницы.
Лично на моем примере! Совсем недавно в индексе яндекса стали появляться, очень много дублей вида:
https://Net-Rabota.ru/joomla/vse-dlya-nachinayushhego-vebmastera/vstroennyj-sef-v-joomla-avtomaticheskoe-sozdanie-chpu-cheloveko-ponyatnye-urly?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed:+net-rabota/bbIU+(заработок+в+сети)
https://Net-Rabota.ru/joomla/dubli-joomla-s-raznymi-kategoriyami-i-id-materiala?utm_source=twitterfeed&utm_medium=twitter&utm_campaign=Feed:+net-rabota/bbIU+(заработок+в+сети)
https://Net-Rabota.ru/novie-vidi-zarabotka/zarabotok-na-fajloobmennike-fajlmashina/?utm_source=twitterfeed&utm_medium=twitter&utm_campaign=Net-Rabota.ru&utm_content=%D0%B7%D0%B0%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%
BE%D0%BA%2C%D1%80%D0%B0%D1%81%D0%BA%D1%80%D1%83%D1%82%D0%BA%
D0%B0%2Cjoomla
Как видите, в этих дублях страниц присутствует добавления к url - utm_campaign и utm_medium и utm_source.
Каким путем яндекс видит и индексирует, эти дубли, я так и не понял, но сразу нашел решение этой проблемы при помощи параметра Clean-param.
Clean-param.
Clean-param - это параметр для файла robots.txt, создан специально поисковой системой яндекс, для того, чтобы указать какие страницы нужно игнорировать к индексации.
Я долго искал такое решение, и вот наконец, нашел параметр Clean-param, который дает возможность запретить к индексации яндексом ссылки, с разными добавлениями к url, не только, utm_campaign и utm_medium и utm_source, но и других.
И так, про составление правильного robots.txt я писал в статье: «улучшаем robots.txt», в дополнение к правильному robots.txt, можно добавить параметр Clean-param, для запрета к индексации не нужных мусорных страниц или страниц дублей, при условии что они уже попали в индекс яндекса.
Допустим это может выглядеть так:
User-agent: Yandex
…
…
Clean-param: utm_source *
Clean-param: utm_medium *
Clean-param: utm_campaign *
…
…
Clean-param: utm_source *
Clean-param: utm_medium *
Clean-param: utm_campaign *