Robots.txt. Что это такое, где найти, как проверить и установить на сайт

Файл robots.txt. Наверно, только ленивый не писал на эту тему. Мой сайт для новичков, которые только ступили на тропу Инфобизнеса и твёрдо решили подниматься в гору к вершине своего успеха. Чтобы у Вас сложилось чёткое понимание необходимости наличия на Вашем сайте файла robots.txt и посвящена данная статья.

Robots.txt. Что это?

Robots.txt это текстовый файл, который наряду с другими способами служит для управления индексацией сайта. Его наличие на сайте вовсе не обязательно, но полезно, так как:

  • Позволяет полностью запретить роботам-паукам (ботам)  индексирование Вашего сайта.
  • Запрещает роботам индексирование заданных Вами страниц сайта, папок, файлов, в том числе, при правильной настройке — продублированный контент в рубриках, архивах, тэгах. Это, в конечном счёте, повышает качество сайта.

Главное предназначение файла robots.txt – облегчить работу автоматических роботов-пауков (ботов) различных поисковых систем, которые заходят на Ваш сайт, фактически его сканируют, делают кэш (копии Web-страниц) Вашего сайта в базе данных своей поисковой системы. Далее информация Вашего сайта анализируется с использованием специальных алгоритмов, определяются его характеристики и место выдачи страниц сайта при формировании пользователем поисковых запросов.

В файле robots.txt можно задать параметры индексирования своего сайта как сразу для всех роботов, так и для отдельных роботов конкретной поисковой системы.

Для новичков в начале своего пути достаточно сформировать файл robots.txt из трёх секций. Первая секция определяет правила для всех поисковых систем. Вторая — отдельно правила для поисковой системы Яндекс, рейтинг которой сравним с поисковой системой Google. Поисковая система Яндекс пользуется большой популярностью среди русскоязычного населения. Третья секция даёт ссылки на Ваш хостинг, где установлен Ваш сайт, и ссылки на карту Вашего сайта.

У Вас нет времени самому сформировать файл robots.txt? Не беда. Возьмите готовый к работе шаблон. Вот, что предлагает школа StartUp для движка WordPress:

Файл robots.txt cкачать можно здесь.

Как создать robots.txt файл?

Файл, как правило, включает два агента. Первый “User-agent: * ” определяет правила для роботов всех поисковых систем (параметр *), второй — “User-agent: Yandex” для поисковой системы Яндекс (параметр Yandex ).

User-agent: * — имя робота (бота).
Параметр «*» означает, что это м.б. любой робот (бот).
/wp-login.php– консоль администратора сайта
/wp-register.php — консоль регистрации на сайте
/feed – лента фидов (RSS) записей Вашего сайта
/cgi-bin– каталог скриптов на Вашем сервере
/wp-admin – страница администратора сайта
/wp-includes– хранятся файлы для работы движка WordPress
/wp-content/plugins– страница плагинов на сайте
/wp-content/cache – кэшированная (отсканированная) страница сайта
/wp-content/themes– страница тем на сайте
/trackback– страница ссылок на другие сайты
/comments– страница комментариев на сайте
/category– страница категорий на Вашем сайте
/*?*- URL, внутри имени которого есть знак вопроса «?»
/?s= — имена (URL) запросов заканчиваются знаком вопроса «?»

Оператор «Disallow: » запрещает индексацию информации. Параметр «*» для «Disallow: » обозначает любую последовательность знаков в данном месте  директории.
Строка «Host: infbiznull.ru» задаёт главное зеркало сайта (основное место расположения сайта). infbiznull.ru – доменное имя сайта.
Строки «Sitemap: http://infbiznull.ru/sitemap.xml.gz»,
«Sitemap: http://infbiznull.ru/sitemap.xml» , где infbiznull.ru – доменное имя сайта (совпадает с именем в Host: infbiznull.ru), «sitemap.xml» – файл наименования статей сайта и ссылок (URL) на них), «sitemap.xml.gz» — сжатый файл статей сайта, удобный для человеческого восприятия.

Следует помнить, что «Disallow: /?s=» может запретить индексировать Ваш контент на сайте, если там присутствуют постоянные ссылки типа «Имя сайта.ru/?p=123». Нужно, чтобы ссылки были «человеческими». Для этого пользуйтесь плагином перевода кириллицы в латиницу, например, Cyr to Lat enhanced. Например, ссылка на статью до использования плагина была такая «http://infbiznull.ru/?p=18#more-18», после использования плагина стала такой «http://infbiznull.ru/internet-biznes-slona-nado-videt-ts/#more-18». Не хотите ставить плагин, уберите из файла robots.txt строки «Disallow: /?s=».

И ещё будьте осторожны: прежде чем закрыть от индексации категории и архивы, убедитесь, что через них не выводится Ваш контент. В противном случае Ваш контент не будет индексироваться.

Правила формирования robots.txt

Существуют определенные правила формирования robots.txt, которые являются стандартом де-факто, а не де-юре:
1. Пишется файл в формате «.txt».
2. Максимальное количество строк в файле – 1024, максимальное количество символов в строке – 1024.
3. Максимальный размер файла robots.txt – 32 Кб.
4. Секции «User-agent: » и «Sitemap: » отделяются пустой строкой, в которой даже невидимые пробелы должны отсутствовать).
5. Секция «User-agent: »должна содержать как минимум одну строку «Disallow:»
6. Строка «Host: » м.б. только одна и должна размещаться последней строкой в секции «User-agent: » без пустой строки перед строкой «Host: ». Это правило обязательно для Яндекса, точнее для User-agent: Yandex.
7. В параметре «Host: » д.б. имя домена, а не IP-адрес домена.
8. Параметры строк включают только строчные символы (не прописные, заглавные), т.е. прописываются (редактируются) на нижнем регистре клавиатуры. Это относится и к названию файла (robots.txt).

Как правильно составить robots.txt? Существует несколько вариантов создания файла robots.txt:
1. Скачать с сайта, которому Вы доверяете по адресу http://Имя домена/robots.txt. Предварительно убедитесь, что движок сайта такой же как и у Вас.
2. Заимствовать из Интернета, например, по запросу «Примеры robots.txt для WordPress».
3. Сгенерировать файл с использованием специальных сервисов.
4. Сгенерировать файл с использованием плагинов, например, для  WordPress:

5. Сформировать вручную.

Пользуясь выше приведенными правилами и рекомендациями, можно сформировать файл robots.txt вручную, открыв «Блокнот» в Windows.
Можно скопировать в «Блокнот», найденный Вами файл robots.txt, и его отредактировать для Вашего сайта.

Загрузка на хостинг файла robots.txt

Если Вы сформировали и сохранили файл robots.txt одним из вышеназванных способов, его надо загрузить на Ваш хостинг в корневую папку Вашего сайта. Для WodPress это папка public.html Вашего сайта.
Мой хостинг SPRINTHOST. Заходим на сайт SPRINTHOST. Далее заходим в “Панель управления”:

Набрав логин и пароль, нажимаем «Войти». Выбираем внизу на открывшейся странице в меню «Дополнительно» «Файловый менеджер»:

Появится окно:

Нажимаем «domains»:

Нажимаем «infbiznull.ru»:

В папке «……/infbiznull.ru» выбираем нужную корневую папку «public.html». В открывшемся окне внизу нажимаем «Загрузить файлы в текущую директорию»:

В появившемся окне нажимаем «Выберете файл»:

Откроется окно Вашего компьютера. Выберите директорию, где находится файл «robots.txt_dlya_infbiznull».  нажмите «Открыть»:

Нажмите «Открыть».

В открывшемся окне нажать «Загрузить файлы». После успешной загрузки файла с Вашего компьютера на Ваш хостинг в корневую папку public.html сайта infbiznull.ru появится сообщение:

Проверка файла robots.txt

Если Вы сформировали файл robots.txt и загрузили на Ваш хостинг, его надо проверить на выполнение установленных правил его написания.
Можно это сделать на сервисе Яндекс Вебмастер и без регистрации. Зайдите на сайт webmaster.yandex:

Выберите пункт «Проверить robots.txt». В выбранном окне укажите URL Вашего сайта (http://infbiznull.ru ) и нажмите “Загрузить robots.txt” с сайта. Файл robots.txt загрузится:

Нажмите на кнопку «Проверить»:

Подобный результат показывает, что ошибок не обнаружено. Файл robots.txt корректный.

Можно узнать, какие страницы сайта разрешены к индексации, какие нет. Нажмите кнопку «добавить», введите в открывшееся окошко список проверяемых URL и нажмите кнопку «Проверить». Внизу окна за используемыми секциями получим результат:

Данная проверка не изменяет содержимое файла robots.txt на Вашем сайте на хостинге.

Специалисты школы StartUP рекомендуют проверять вручную файл robots.txt на отсутствие скрытых знаков (пробелов) внутри пустых строк. Они порой не всегда корректно воспринимаются роботами. Откройте в «Блокноте» файл robots.txt и выделите строки с захватом пустых строк:

Вторая строка из трёх имеет знак пробела. Эту строку необходимо удалить и заново файл robots.txt загрузить на хостинг в корневую папку Вашего сайта.

По мнению отдельных блоггеров  изменения в robots.txt поисковые системы могут заметить через несколько месяцев, а директива “Host: ” вовсе не понимается Гуглом. Да и вообще роботы-пауки (боты) различных поисковых систем могут игнорировать правила поведения для них на Вашем сайте, описанные в файле robots.txt. Для устранения такого явления используют другие инструменты, например, метатеги, о которых мы поговорим отдельно.

Более подробно о файле robots.txt можно посмотреть в Яндексе, Google  и на сайте robotstxt.

Вы дошли до конца статьи? Воплотили рекомендации на практике? Поздравляю! Я уверен, что Вы поняли, что файл robots.txt служит для управления индексацией сайта. Вы познакомились с правилами и способами формирования файла robots.txt и сформировали его. Вы теперь знаете, как загрузить на хостинг файл robots.txt и можете это сделать практически. Вы можете проверить файл robots.txt на корректность и использовать его на своём сайте. Удачи Вам!

Если Вам понравилась статья, оставьте комментарий, сделайте retweet на кнопке в начале статьи или/и расскажите друзьям в социальных сетях, кликнув на кнопку, выбранной Вами социальной сети в конце статьи. Мне очень нужен Ваш голос!

Так же на эту тему Вы можете почитать:

Robots.txt. Что это такое, где найти, как проверить и установить на сайт: 8 комментариев

  1. По прежнему не вижу картинок в этой статье.

    Где-то в анализе сайта увидела сообщение что мой robot.txt не позволяет Гуглу индексировать сайт. Вчера пыталась с этим разбираться. Вроде ничего не нашла (я тот еще специалист!), попробую теперь еще раз проанализировать свой робот при помощи этой информации. Спасибо!

    • Какой-то глюк с картинками. Картинки перегрузил. В своём браузере картинки вижу. Если так будет продолжаться, придётся сделать откат сайта.
      Про Robots.txt. Вы это увидели в результатах поиска. Возможно в ссылке встречается знак “?”. Robots.txt не даёт роботу Google индексировать Ваш сайт. Надо использовать плагин перевода с латиницы в кирилицу
      Повнимательней посмотрите директории адреса ссылки. М.Б. в адресе встречается то, что Robots.txt не даёт роботу Google индексировать Ваш сайт.

      • Галина! Я выложил сегодня на свой сайт статью “Как увидеть результаты индексирования сайта поисковым роботом Google”. Я думаю, что она Вам поможет разобраться в Вашей ситуации, в т.ч. и с файлом robots.txt.

  2. Спасибо за статью. Пришла к Вам с мастер группы. Проверила еще раз файл robot.txt он у меня в порядке, узнала в статье как проверить URL адреса, Яндекс пишет что разрешено. Вроде все нормально теперь. Может просто сайт стал индексироваться. Еще раз спасибо!

  3. Уведомление: Индексация сайта. Цена знака вопрос в ссылке на пост | ИНФОБИЗНЕС ДЛЯ НОВИЧКОВ

  4. Its such as you read my thoughts! You appear to understand so much about this, like you wrote the guide in it or something. I think that you just can do with a few p.c. to drive the message home a little bit, but other than that, that is excellent blog. A great read. I’ll certainly be back.

    Перевод: Вы будто читаете мои мысли. Кажется, чтобы понять многое, Вы написали об этом целое руководство. …отличный блог. Приятно читать. Я, конечно, вернусь.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>