Файл robots.txt играет важную роль при индексации сайта поисковыми роботами. Главная его задача закрыть от индексации дубликаты оригиналов страниц, черновики и другие документы.
Как создать файл robots.txt мы рассмотрели здесь. Что такое правильный robots.txt? Как составить правильный robots txt? Особенно это актуально при формировании файла robots.txt для WordPress. Движок WordPress создаёт очень много дублей и мусора. Что следует закрыть от индексации файлом robots.txt?
Чтобы ответить на этот вопрос обратимся к сервису
Проанализируем мой блог http://infbiznull.ru/ И так, заходим в панель вебмастера яндекс, далее Мои сайты => infbiznull.ru По состоянию на 18.12.2013 г. картина была следующей: Роботом загружено 541 страница. Исключено роботом 236. Страниц в поиске -74. Кликнув на ЗАГРУЖЕНО РОБОТОМ, я провёл анализ загруженных страниц. Увидел, что здесь есть страницы, в директории которых есть /category/* и /tag/*. Эти страницы роботу следует пропускать, т.е. они для него должны быть невидимыми. Зачем робот нагружать лишней работой? В результате Файл robots.txt приобрёл вид: Жёлтым цветом отмечены новые директивы. Роботу не следует в дальнейшем индексировать кэшированные страницы (Disallow: /wp-content/cache), продублированные оригиналы в категориях (Disallow: /category/*/*) и тэгах (Disallow: /tag/), а также дубли страниц оригинала с комментариями (Disallow: /comment-page-*/) и архивов (Disallow: /2013/02/page/2/).
Что такое Disallow: /trackback? trackback –сообщает другому блоггеру, что Вы сделали ссылку на его блог. Если Вам не ясен смысл других директив или забыли как файл robots.txt заменить на хосте, то обратитесь к статье блога http://infbiznull.ru/robots-txt-chto-e-to-takoe-gde-najti-kak-proverit-i-ustanovit-na-sajt/.
Посмотрим результаты работы робота Яндекс с изменённым файлом robots.txt на сегодня. Заходим в панель вебмастера яндекс, далее Мои сайты => infbiznull.ru На 25.12.2013г. роботом загружено 518 страниц. Исключено роботом 448 против 236 от 18.12.2013 г.. Т.е. число страниц, запрещённых к индексированию, увеличилось. Этого мы и добивались. Страниц в поиске -77. Но на сайте я разместил только 58 записей. Из них опубликовано — 57 и прилепленная – 1 (на главной странице блога: «Возраст не помеха!»). Чтобы убедиться в этом, надо зайти в Панель администратора блога и выбрать ЗАПИСИ => ВСЕ ЗАПИСИ: А что это ещё за 19 страниц в поиске (77-17-1=19)? Кликнем в панели Вебмастера Яндекс на СТРАНИЦ В ПОИСКЕ. Кроме 58 записей (страниц) автора это:
Страницы меню моего блога: Главная страница сайта: http://infbiznull.ru/ Продолжение главной страницы сайта (страница 2) http://infbiznull.ru/page/2/ Продолжение главной страницы сайта (страница 3) http://infbiznull.ru/page/3/ Продолжение главной страницы сайта (страница 4) http://infbiznull.ru/page/4/ ……… Продолжение главной страницы сайта (страница 6) последняя http://infbiznull.ru/page/6/ Карта сайта: http://infbiznull.ru/karta-sajta/ Продолжение карты сайта (страница 2) http://infbiznull.ru/karta-sajta/?pg=2 Страница запрещена к индексации файлом robots.txt и в 77 страниц в поиске не входит! Продолжение карты сайта (страница 3) последняя http://infbiznull.ru/karta-sajta/?pg=3 Страница запрещена к индексации файлом robots.txt и в 77 страниц в поиске не входит! Страница об авторе http://infbiznull.ru/ob-avtore/ Страница Контакты http://infbiznull.ru/kontakty/ И ещё:
Возраст не помеха. http://infbiznull.ru/485/ Запись прилеплена на главную страницу (точнее, на главной странице только её анонс!)
Я не профи области SEO оптимизации. Ключевые слова и тэги для меня пока это синонимы. Ключевых слов в контенте я использую много. Это для понимания сущности излагаемого материала (см. главную страницу) и облегчения поиска нужной информации на блоге. Я понимаю, что для продвижения в ТОП поисковых систем тэгов должно быть меньше чем ключевых слов. Но пока так. Совершенству нет предела.
Запрет на индексирование роботом поисковой системы страниц в категориях и тегах не влияет на поиск информации на блоге по ключевым словам, категориям и тэгам. Проверим. Зайдём на блог http://infbiznull.ru/, кликнем по ключевому слову под анонсом статьи или выбрав рубрику (страницу) или ведя запрос в строку поиска получим подборку статей. Например, по ключевому слову htacces будет выдано две статьи блога: Можно подвести промежуточные итоги. Корректировка Файла robots.txt позволила роботу поисковой системы Яндекса обойти продублированные страницы оригинала, сократить время аудита сайта. Будем наблюдать за работой робота Яндекса, проведём в дальнейшем анализ с помощью ресурса
Дорогой мой новичок! Теперь Вам не страшно вносить изменения в файл robots.txt. Теперь знаете как закрыть от индексации дубли страниц Вашего блога. Но помните, если на блоге скопился мусор (черновики Ваших записей, дубли и др.) его надо удалять. Для этого нужно тоже регулярно чистить базы данных блога. Об этом мы ещё поговорим.
Спасибо ОГРОМНОЕ за эту статью. Я не так давно сделал сайтhttp://infobizworld.ru/ . И Ваша статья мне очень помогла. Спасибо ещё раз)))
Весьма содержательно, но гораздо проще было бы тупо выложить готовый файл robots.txt, чтобы люди не мучились. Хотя если хочется понять тему, то можно всё-таки потратить время на прочтение. В общем, спасибо за роботс, это как раз то, что я искал. Мне нужно было закрыть от индекса тэги и прочую чепуху. В общем, мерси.