Как увидеть результаты индексирования сайта поисковым роботом Google

Милые мои новички Инфобизнеса, пионеры! Вам не терпится узнать, осуществляется ли у Вас индексирование сайта, посещает ли Ваш сайт (блог) робот поисковой системы, робот-паук, в частности, поисковый робот Google. Что он видит? Что он выдаёт на страницы поиска? Чем он руководствуется?

Поисковый робот заходит на Ваш сайт, чтобы провести операцию индексирования сайта. Индексирование сайта — это процесс получение роботом-пауком сведений о  Вашем сайте.  Полученные сведения  робот заносит  в базу данных своей поисковой системы для последующего полнотекстового поиска информации на Вашем сайте и её выдачи по поисковому запросу..

Ваш сайт молодой? Тогда немного подождите: две недели, месяц, а то два и более и задайте себе вопрос заголовка статьи. Думаю, что Google Вас заметит, а Яндекс, может быть, и нет. И это несмотря на то, что у Вас на сайте стоит файл robots.txt.

Этот файл задаёт правила игры для роботов-пауков поисковых систем. Можно обойтись и без него. Но тогда робот увидит всё содержимое сайта, в т.ч. и дубли Ваших статей в разных директориях сайта (категории, архив, панель администратора и др.), и посчитает Ваш сайт помойкой. А Вам это надо? Поэтому файл robots.txt необходим. Отнеситесь к его формированию так ответственно, чтобы у Вас не было вопросов. Каждая строка файла robots.txt должна быть понятна: что и где она на Вашем сайте запрещает или разрешает индексировать.

Результаты индексирования сайта получить нетрудно. Для этого существует множество различных ресурсов анализа сайта в режиме онлайн. Давайте посмотрим это на сайте cy-pr.  Откройте главную страницу сайта.

Сначала надо зарегистрироваться. Это бесплатно. Я уверен, что кнопку регистрации Вы найдёте и заполните необходимые данные.  В процессе регистрации на Ваш почтовый ящик придёт два письма. Первое с кодом для подтверждения регистрации, который Вы вставите на странице регистрации. Второе – с сообщением «Вы зарегистрированы и успешно авторизовались» и выдадут Ваш логин и пароль для доступа (Сохраните!!!).

Теперь автоматически при входе на сайт cy-pr. будет открываться Ваша личная страница:

 В правом верхнем углу запись говорит о том, что Вы зашли в свой личный кабинет. В середине внизу – функции, которые предоставляет сервис. Рекомендую прочитать текст, Вы много полезного для себя узнаете. Да и вообще, будет время, познакомьтесь более подробно с возможностями данного ресурса. Интерфейс интуитивный, доброжелательный.

Введите в окошко слева от кнопки «Анализ» ссылку на Ваш сайт  и нажмите кнопку «Анализ». Получим информацию по сайту:

Мы видим заголовок сайта, описание, ключевые слова, взятые из Ваших  настроек плагина All in One SEO Pack,  IP-адрес сервера (хостинга), на котором находится Ваш сайт. А также ниже на странице раздел «Проиндексированные страницы»:

По Google видим: 191/85%. Это означает, что робот Google нашёл на сайте 191 страницу, из которых 85% находятся не под фильтром, т.е. не запрещены для индексирования файлом robots.txt. Что же это за страницы? Мы их все можем увидеть в своём браузере, кликнув на цифре 191 и получим ответ по запросу :


Откроем первую ссылку:

Откроем вторую ссылку:
Как видим эти статьи (не полностью!!!) открылись по ключевым словам с главной страницы сайта, и робот их проиндексировал.  Но эти записи полностью можно открыть по прямым ссылкам на эти статьи. Пролистаем в браузере полученные результаты и найдём:И эти страницы тоже проиндексировал робот! Важно, что здесь выдаются пояснения из настроенного Вами плагина All in One SEO Pack для статьи! Так что ответственно относитесь к заполнению параметров этого плагина: заглавию, описанию, ключевым словам.

ВЫВОД: Я использую много ключевых слов в отдельно взятой статье для поддержки хорошей навигации по сайту. Но чтобы робот Google не индексировал статьи, выбранные по тегам (ключевым словам), надо ввести запрет. Для этого надо в файле robots.txt прописать строку:

Disallow: /tag/

В этом случае дублирование контента для робота-паука будет намного меньше. Количество проиндексированных страниц уменьшится из-за исключения дублирования статей,  зато привлекательность сайта для робота повысится. Не любят роботы (боты) дублирование контента.

В разделе «Проиндексированные страницы» стоит 85% не под фильтром. Что же это 15% страниц под фильтром? Их можно увидеть на последних страницах выполнения поискового запроса. Например, на странице 13:


Можно посмотреть и другие поисковые выдачи. Для анализа обязательно  надо, чтобы перед Вами был открыт файл robots.txt с Вашего сайта. Выводы делайте сами.

Анализируйте и, при необходимости, редактируйте файл robots.txt.

Ну что, дорогой мой новичок инфобизнеса, Вы теперь вооружены? А, значит, можете защититься! Вы узнали, что такое индексирование сайта. Вы можете пользоваться сервисом cy-pr для анализа сайта. Можете посмотреть проиндексированные и не проиндексированные страницы своего сайта. Сколько всего страниц увидел поисковый робот Google на Вашем сайте. При необходимости, можете отредактировать файл  robots.txt.

Так же на эту тему Вы можете почитать:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>