Содержание

что это, как настроить и ускорить индексирование в поисковых системах

Как только вы создадите сайт для своего бизнеса, однозначно столкнетесь с понятием «индексация в поисковых системах». В статье постараемся как можно проще рассказать, что это такое, зачем нужно и как сделать, чтобы индексация проходила быстро и успешно.

Что такое индексация в поисковых системах

Под индексацией понимают добавление информации о сайте или странице в базу данных поисковой системы. Фактически поисковую базу можно сравнить с библиотечным каталогом, куда внесены данные о книгах. Только вместо книг здесь веб-страницы.

Если совсем просто, индексация — процесс сбора данных о сайте. Пока информация о новой странице не окажется в базе, ее не будут показывать по запросам пользователей. Это означает, что ваш сайт никто не увидит.

Индексация сайта — базовая часть работы по продвижению ресурса. Только потом уже добавляются все остальные элементы по оптимизации сайта. Если у веб-страницы будут проблемы с индексированием, ваш бизнес не получит клиентов с сайта и понесет убытки.

Как проходит процесс индексации

Давайте посмотрим, как происходит индексирование страниц сайта.

  1. Поисковый робот (краулер) обходит ресурсы и находит новую страницу.
  2. Данные анализируются: происходит очистка контента от ненужной информации, заодно формируется список лексем. Лексема — совокупность всех значений и грамматических форм слова в русском языке.
  3. Вся собранная информация упорядочивается, лексемы расставляются по алфавиту. Заодно происходит обработка данных, поисковая машина относит информацию к определенным тематикам.
  4. Формируется индексная запись.

Это стандартный процесс индексации документов для поисковых систем. При этом у «Яндекса» и Google существуют небольшие отличия в технических моментах, про это мы расскажем дальше.

Читайте также:

Отличия SEO под Яндекс и Google

Технологии и алгоритмы индексации

Сразу стоит оговориться, что точные алгоритмы индексирования — закрытая коммерческая информация. Поисковые системы тщательно охраняют эти данные. Поэтому в этом разделе расскажем про алгоритмы только в общих чертах

Вначале нужно отметить: «Яндекс» при индексации ориентируется в основном на файл robots.txt, а Google на файл sitemap.xml.

Google

Основным отличием является использование технологии Mobile-first. Она подразумевает первоочередное сканирование и индексацию мобильной версии сайта. В индексе сохраняется именно мобильная версия. Получается, что если ваша страница при показе на мобильных устройствах будет содержать недостаточно нужной информации или в целом проигрывать основной версии сайта по качеству.

Так, что она может даже не попасть в индекс.

Также Google подтверждает наличие «краулингового бюджета» — регулярности и объема посещения сайта роботом. Чем больше краулинговый бюджет, тем быстрее новые страницы будут попадать в индекс. К сожалению, точных данных о способах расчета этого показателя представители компании не раскрывают. По наблюдениям специалистов, тут оказывают сильное влияние возраст сайта и частота обновлений.

«Яндекс»

В «Яндексе» основной версией считается десктопная версия сайта, поэтому в первую очередь сканируется именно она. Официально краулингового бюджета здесь нет, поэтому индексирование происходит вне зависимости от траста и других показателей вашего ресурса. Еще может влиять количество выложенных в сеть на данный момент страниц. Речь про страницы, которые конкуренты и другие пользователи выкладывают одновременно с вами.

Приоритет при индексации имеют сайты с большой посещаемостью. Чем выше посещаемость, тем быстрее новая страница окажется в поисковой выдаче.

Также Яндекс не индексирует документы с весом более 10 Мб. Учитывайте это при создании страниц сайта. Советуем также почитать кейс: Продвижение сайта REG.RU за процент от продаж.

Заказать продвижение сейчас

Сайт

Телефон

Как настроить индексацию сайта

В целом сайт должен индексироваться самостоятельно, даже если вы не будете ничего предпринимать для этого. Но если вы разберетесь с настройкой, то получите быструю и надежную индексацию и в случае возникновения проблем с сайтом будете понимать, в чем причина.

Первое, что стоит сделать, — создать файл robots.txt. У большей части систем управления сайтом (CMS) есть автоматизированные решения для его генерации. Но нужно как минимум понимать, какие директивы используются в этом файле. На скриншоте показан стандартный документ для сайта на WordPress:

Типовой файл robots. txt сайта на WordPress

Обратите внимание, что здесь нет директивы host: она не используется «Яндексом» с 2018 года, а Google никогда ее и не замечал. Но при этом до сих пор встречаются рекомендации по использованию этой директивы, и многие по инерции вставляют ее в файл.

В таблице ниже указаны основные параметры, используемые в robots.txt:

Директива Зачем используется
User-agent:
Показывает поискового робота, для которого установлены правила
Disallow: Запрещает индексацию страниц
sitemap: Показывает путь к файлу sitemap.xml
Clean-param: Указывает на страницы, где часть ссылок не нужно учитывать, например UTM-метки
Allow:
Разрешает индексацию документа
Crawl-delay: Указывает поисковому роботу минимальное время ожидания между посещением предыдущей и следующей страницы сайта

Рассмотрим более подробно код на следующем скриншоте. User-agent показывает, что директивы предназначены для «Яндекса». А директива Disallow показывает, какие страницы не должны попасть в индекс. Это технические документы, в частности админ-панель сайта и плагины.

Фрагмент кода robots.txt

Более подробно о том, каким должен быть robots.txt для сайта, можно прочитать в справке сервиса «Яндекс.Вебмастер».

Далее делаем файл sitemap.xml: фактически это карта сайта, созданная в формате xml. Сделано это для упрощения считывания данных поисковыми роботами. В файл вносятся все страницы, которые должны быть проиндексированы.

Для правильной индексации файл не должен превышать 50 Мб или 50000 записей. Если нужно проиндексировать больше адресов, делают несколько файлов, которые в свою очередь перечисляются в файле с индексом sitemap.

На практике сайты, работающие с бизнесом, редко имеют потребность в подобном решении — просто имейте в виду такую особенность.

На скриншоте показан фрагмент кода sitemap. xml, сгенерированный одним из плагинов WordPress:

Так выглядит файл sitemap.xml «изнутри»

Остается разобраться, как создать файл sitemap.xml. Решение зависит от CMS вашего сайта. Если он сделан не на популярном «движке», придется делать все руками. Можно воспользоваться онлайн-генератором: например, mySitemapgenerator. Вводим адрес сайта и через короткое время получаем готовый файл.

Для сайтов на CMS WordPress сделать такую карту сайта еще проще. У вас все равно уже установлен один из плагинов для SEO-оптимизации ресурса. Заходим в настройки плагина и включаем генерацию sitemap.xml. На скриншоте показан пример включения карты сайта через плагин AIOSEO:

Плагин для настройки sitemap.xml в WP

Чтобы сайт максимально быстро индексировался, следует обеспечить перелинковку. Тогда поисковый робот без проблем будет переходить по страницам и своевременно найдет новый документ.

Далее необходимо выполнить настройку индексирования в «Яндекс. Вебмастер» и Google Search Console.

Читайте также:

Подробный гайд по оптимизации сайта на WordPress

Как ускорить индексацию сайта

В начале статьи мы рассказывали, как настроить индексирование. Теперь поговорим о том, как ускорить это процесс. В целом современные поисковые роботы довольно быстро собирают информацию о ресурсе: по моим наблюдениям, новые страницы появляются в индексе уже через 20–40 минут. Но так бывает не всегда, потому что может произойти сбой или еще какая-то нештатная ситуация, и страница будет индексироваться очень долго.

Появление адреса в списке проиндексированных страниц «Яндекс.Вебмастера» не совпадает с моментом индексации. На практике URL оказывается в индексе намного раньше, а в кабинете только при очередном апдейте.

При этом есть ситуации, когда индексирование нужно ускорить:

  • Сайт выходит из-под фильтров.
  • Молодой ресурс обладает небольшим краулинговым бюджетом.

В обоих случаях рекомендуется подтолкнуть поисковых роботов. Отметим, что для «Яндекса» и Google подход будет разным.

Начнем с отечественной поисковой системы. Заходим в «Яндекс.Вебмастер» и в меню слева, во вкладке «Индексирование», находим ссылку «Переобход страниц». Переходим по ней:

Яндекс.Вебмастер — подраздел «Переобход страниц» в меню «Индексирование»

На следующей вкладке вводим URL новой страницы, после чего жмем кнопку «Отправить». Отследить статус заявки можно в расположенном ниже списке:

Процесс отправки страниц сайта на переобход

Так можно поступать не только с новыми страницами, но и в случае изменения уже имеющихся на сайте. Только помните, что количество отправок в сутки ограничено, причем все зависит от возраста и траста сайта.

В самом «Вебмастере» предлагается для ускорения индексирования подключать переобход по счетчику «Яндекс. Метрики». Это не самое лучшее решение. Дело в том, что поисковый робот может ходить по всем страницам — даже тем, которые не нужно индексировать, причем в приоритете будут наиболее посещаемые документы. Может получиться ситуация, когда старые страницы робот обошел, а новые не заметил. Или вообще в поиск попадут технические страницы: например, страница авторизации или корзина интернет-магазина.

У Google ускорение индексации состоит из двух этапов. Сначала идем в Search Console, где на главной странице вверху находится поле «Проверка всех URL». В него вставляем адрес страницы, которую нужно проиндексировать. Далее нажимаем на клавиатуре «Enter».

Поле для ввода URL страницы, которую мы хотим добавить для индексирования

Ждем около минуты. Сервис нам будет показывать вот такое окно:

Всплывающее окно в Search Console о получении данных из индекса

Следующая страница выглядит вот так:

Как видите написано, что URL отсутствует в индексе, поэтому нажимаем на кнопку «Запросить индексирование»

Некоторое время поисковая машина будет проверять, есть ли возможность проиндексировать адрес:

Техническое окно с сообщением о проверке

Если все прошло успешно, Google сообщает, что страница отправлена на индексирование. Остается только дождаться результатов.

Сообщение об отправке запроса. Обратите внимание, что не стоит повторно отправлять на индексацию один и тот же URL

При отправке на индексирование страниц сайта, следует помнить, что Google до сих пор очень ценит ссылки. Поэтому, существует альтернативный способ ускорения индексации — Twitter.

Сразу после публикации страницы идем в Twitter и делаем твит с нужным адресом. Буквально через полчаса URL будет уже в индексе Google.

Лучше всего использовать эти обе способа совместно. Так будет надежнее.

Читайте также:

Внешняя оптимизация сайта: как продвигать сайт с помощью сторонних ресурсов

Как запретить индексацию страниц

В некоторых случаях может потребоваться не проиндексировать, а наоборот запретить индексацию. К примеру, вы только создаете страницу и на ней нет нужной информации, или вообще сайт в разработке и все страницы — тестовые и недоработанные.

Существует несколько способов, чтобы «спрятать» страницу от поисковых роботов. Рассмотрим наиболее удобные варианты.

Способ первый

Если вам нужно скрыть всего один документ, можно добавить в код страницы метатег Noindex. Эта команда дает поисковому роботу команду не индексировать документ. Размещают его между тегами <head>. Вот код, который нужно разместить:

<meta name=»robots» content=»noindex» />

Большая часть CMS позволяют использовать этот метод в один клик, предлагая готовые решения. У WordPress, например, для этого имеется отдельная строчка в настройках редактора, а в «1С-Битрикс» путем настроек раздела и конкретной страницы.

Способ второй

Заключается в редактировании файла robots.txt. Разберем несколько примеров закрытия страниц от индексирования.

Начнем с полного закрытия сайта от индексирования. На скриншоте код, который выполняет эту задачу: звездочка говорит, что правило работает для всех поисковых роботов. Косая черта (слеш) показывает, что директива Disallow относится ко всему сайту.

Полное закрытие сайта от индексирования

Если нам нужно закрыть ресурс от индексирования в конкретной поисковой системе, указываем название ее краулера. На скриншоте показано закрытие от робота «Яндекса».

Закрываем сайт от индексации «Яндексом»

Когда нужно избежать индексирования конкретной страницы, после слеша указываем параметры пути к документу. Пример показан на скриншоте:

Закрытие одной страницы в Robots.txt

Для Google все перечисленные способы работают аналогично. С разницей лишь в том, что если страницу или целый сайт нужно скрыть конкретно от этой поисковой системы, в User-agent указывают атрибут Googlebot.

Закрытие страниц от индексации используется довольно часто. В процессе развития своего веб-ресурса вам часто придется делать новые страницы, или переделывать имеющиеся. Чтобы избежать попадания в поисковую выдачу не готовых к показу страниц, имеет смысл закрывать их от индексации.

Присоединяйтесь к нашему Telegram-каналу!

  • Теперь Вы можете читать последние новости из мира интернет-маркетинга в мессенджере Telegram на своём мобильном телефоне.
  • Для этого вам необходимо подписаться на наш канал.

Распространенные ошибки индексации

Чаще всего проблемы возникают из-за случайного закрытия сайта от индексирования. У меня был случай, когда клиент при самостоятельном обновлении плагинов как-то внес изменения в файл robots.txt, и сайт исчез из поисковой выдачи. Поэтому при всех действиях, которые связаны с этим файлом, обязательно проверяйте, нет ли изменений в директивах.

Для проверки можно использовать инструмент Яндекс.Вебмастер «Анализ robots.txt».

Анализатор robots.txt — бесплатный и полезный инструмент проверки файла на корректность записанных директив

В некоторых случаях могут индексироваться технические страницы. К примеру, на WordPress при размещении изображений в виде медиафайла поисковый робот может индексировать каждую картинку в качестве отдельной страницы. В таком случае делаем редирект с этой страницы на тот документ, где изображение будет выводиться.

Читайте также:

Как сделать редирект — подробное руководство по настройке и использованию

Иногда встречаются проблемы с индексированием из-за неполадок на сервере или хостинге, но это уже нужно решать с администратором сервера, что выходит за рамки этой статьи.

Медленное индексирование может быть следствием наложения фильтров со стороны поисковых систем. Посмотрите, нет ли предупреждений в сервисах для вебмастеров: если они есть, устраните проблемы.

Как проверить индексацию сайта

Проверить индексацию сайта можно несколькими способами. Самым простой — в поисковой строке браузера набрать адрес сайта с оператором «site» или «url». Выглядит это вот так: «site: kokoc.com». На скриншоте показан запрос с проиндексированной страницей.

Проверка индексирования в поисковой системе

Если страница еще не вошла в индекс, вы увидите вот такую картину. Проверка в Google производится аналогично.

Страница не проиндексирована

Также можно посмотреть статус документа в «Яндекс.Вебмастер». Для этого находим в меню «Индексирование» и переходим на «Страницы в поиске».

Меню «Яндекс.Вебмастер»

Внизу страницы будут три вкладки. Нас интересуют «Все страницы», там можно увидеть статус документа, последнее посещение и заголовок.

Проиндексированные страницы

Обязательно посмотрите вкладку «Исключенные страницы». Тут вы увидите, какие документы оказались вне поискового индекса. Также указана причина исключения.

Исключенные страницы

При любых сложностях с индексированием в первую очередь следует смотреть конфигурационные файлы robots.txt и sitemap.xml. Если там все в порядке, проверяем, нет ли фильтров, и в последнюю очередь обращаемся к администратору хостинга.

Выводы

Индексация страниц сайта сейчас происходит в самые короткие сроки. При правильной настройке документы могут попадать в индекс поиска уже через полчаса после размещения.

Настройка сводится к созданию правильных конфигурационных файлов и созданию удобных условий для поискового робота для перехода по страницам сайта. Вот какие шаги нужно сделать для правильной индексации:

  1. Создаем и настраиваем файл robots.txt.
  2. Генерируем файл sitemap.xml.
  3. Регистрируем сайт в сервисах Google Search Console и «Яндекс. Вебмастер».
  4. Каждый раз после размещения статьи или новой страницы отправляем URL на проверку.
  5. Используем дополнительные инструменты: размещение ссылок в Twitter и на других трастовых ресурсах.

После этого вероятность возникновения каких-либо проблем с индексированием будет стремиться к нулю. Теперь нужно наращивать позиции в топе — но это уже совсем другая история…

Продвижение сайта в ТОП-10

  • Оплата по дням нахождения в ТОП
  • Подбираем запросы, которые приводят реальных покупателей!

Что такое индексация сайта (Как улучшить индексацию в Google)

Индексация сайта — это процесс сбора информации поисковой системой о содержимом вашего сайта. Во время индексации поисковые роботы (пауки) сканирую и обрабатывают web страницы, изображения, видео и другие доступные для сканирования файлы. Чтобы поисковая система быстро проиндексировала сайт: создайте карту сайта и добавьте ее в Google Search Console.

Сайт должен быть проиндексирован чтобы отображаться в поиске

Страницы, которые прошли сканирование и обработку, сохраняются в базу данных. Такая база называется “поисковой индекс”. Именно в этой базе данных поисковая система ищет результаты, отвечающие на запросы пользователей.

Важно понимать:

  • Если страницы нет в поисковом индексе — ее невозможно найти в поисковой системе.
  • Индексация нужна чтобы участвовать в поиске.
  • У каждой поисковой системы свой поисковой индекс, свои поисковые боты.
  • Поисковой бот от Google называется Googlebot.
  • Настройка индексации сайта, это базовый уровень работ по SEO.

Содержание статьи

  • Как проверить индексацию страницы
  • Как проверить индексацию всего сайта
  • Как добавить новый сайт в индекс поисковиков?
  • Что делать, если сайт плохо индексируется
  • Как происходит индексация сайта
  • Этап 1: Сканирование
  • Этап 2: Обработка данных
  • От чего зависит индексация

Как проверить индексацию страницы?

Самый быстрый способ — написать в строку поиска команду site:[адрес страницы]. Такой поиск найдет все проиндексированные страницы сайта. Для того, чтобы просмотреть дату последнего сканирования страницы, напишите в строку поиска cache:[адрес проверяемой страницы]. Если вам нужно проверить индексацию конкретной страницы просто скопируйте ее адрес и введи в поиск запрос site:[адрес страницы]. Этот метод будет работать как в Google так и в Yandex или Bing.

Совет: Сравните количество проиндексированных страниц с реальным количеством страниц на сайте. Это поможет быстро оценить есть ли у вашего сайта проблемы с индексацией. К примеру: если на сайте 100 товаров, 10 разделов и 10 информационных страниц (в сумме 120), а в индексе только 50 страниц, это означает, что поисковая система не знает о большей части вашего сайта.

Как проверить индексацию всего сайта

Для проверки индексации сайта нужно выполнить 2 простых шага:

  1. Узнать сколько страниц на сайте. Для этого просканируйте свой сайт специальными инструментами. Если ваш сайт до 500 страниц вам подойдет бесплатная версия Screaming Frog , если этого недостаточно используйте, бесплатный Site Analyzer. В разделе “HTML” вы увидите общее количество страниц вашего сайта.
  2. Зайдите в инструменты для вебмастеров или Google Search Console (Что такое Google Search Consol )  откройте отчет “Покрытие” и просмотрите количество страниц в статусе “Без ошибок”. Количество страниц в сканере Site Analyzer и страниц в Google Search Console должно приблизительно совпадать. Это, будет означать, что основные страницы сайта сканируются. Если часть страниц попала в группу “Исключено” вы можете изучить причины исключения страниц. В этом же отчете вы можете познакомиться с историей индексации вашего сайта за последние 3, 6 или 12 месяцев.
  3. Довольно часто в отчете “Покрытие” вы можете увидеть большое количество страниц в статусе “Страница просканирована, но пока не проиндексирована” — это означает, что поисковая система уже получила данные о ваших страницах но пока не обработала их до конца. Так же, страницы могут находиться в этом статусе по причине низкого качества: пустые страницы или страницы с повторяющимся содержанием. Если количество “пока не проиндексированных” страниц не сокращается попробуйте уникализировать, добавить содержание или увеличить количество качественных внешних ссылок на свой сайт.
  4. Если вам нужно массово проверить индексацию страниц вашего сайта, воспользуйтесь онлайн инструментом https://indexchecking.com
  5. Хорошая идея проверить свой сайт с помощью инструментов https://en.ryte.com — это поможет вам понять какие страницы закрыты от индексации. А так же, обнаружить страницы на которых есть технические проблемы.

Проверяем не закрыта ли отдельная страница от индексации

Если перед вами появилась задача, проверить запрет индексации конкретной страницы проще всего использовать инструменты для вебмастеров. Скопируйте адрес страницы которую вы хотите проверить и вставьте в инструмент “Проверка URL на ресурсе”.

В результате проверки вы получите информацию о запретах индексации. Обратите внимание на информацию о запретах, статусе страницы и канонический адрес.

 

Как добавить новый сайт в индекс поисковиков?

Сообщите поисковой системе о своем сайте в специальном инструменте Google или Yandex. Поделитесь своим сайтом в социальной сети или создайте на него ссылку с другого, уже проиндексированного сайта.

Узнайте больше о работе поисковой системы

Что делать, если сайт плохо индексируется?

Прежде всего нужно проверить не закрыт ли сайт от индексации. Это можно сделать по инструкции в этой статье чуть выше. Основные способы улучшить индексацию:

  • Создайте карту сайта и загрузите в инструменты для вебмастеров.
  • Обновите старые страницы.
  • Удалите пустые страницы.
  • Поставьте дополнительные ссылки на сайт с сторонних сайтов и соц. сетей.

Как происходит индексация сайта

Для решения проблем нужно разобраться в процессе индексации подробнее. С технической точки зрения “индексацию сайта” правильнее рассматривать как два отдельных процесса:

  1. Сканирование страниц.
  2. Обработка страниц.

Этап 1: Сканирование

Сканирование или “обход” страниц — это основная задача, которую выполняет поисковой бот. Попадая на новую страницу, бот получает со страницы два набора данных:

  1. Содержание самой страницы, информацию о сервере и служебные данные. А именно: ответ сервера, html код страницы, файлы css стилей, скриптов, изображений.
  2. Перечень ссылок, которые находятся на странице.

Полученное содержание передается для дальнейшей обработки и сохранения в базу. Просканированные ссылки так же сохраняются в специальный список — “очередь сканирования”, для дальнейшей обработки.

Когда бот добавляет в очередь индексации страницу, которая уже есть в очереди, эта страница занимает более высокое место в списке и индексируется быстрее. А это значит, что первый способ ускорить сканирование сайта — увеличить количество ссылок на нужные страницы.

Создавая очередь сканирования, google bot, как и другие поисковые боты, изучает карту сайта sitemap и добавляет в очередь ссылки из этой карты. Второй способ улучшить индексацию — создать карту сайта sitemap.xml и сообщить о ней поисковой системе. Карта сайта – самый простой способ отправить на индексацию все страницы в рамках нашего домена.

Есть несколько способов создать карту сайта:
  • Бесплатный онлайн инструмент для сайтов до 500 страниц www.xml-sitemaps.com.
  • Программа для сканирования сайта, с возможностью создания sitemap — xenu links.
  • Библиотека приложений для создания sitemap.
  • Самый популярный плагин для создания карты сайта для WordPress.

Чтобы Google узнал о вашем sitemap, нужно добавить ссылку на карту сайта в инструментах search console или файле robots.txt

Добавление карты сайта в Search Console:
  1. Зайдите в https://search. google.com/search-console/
  2. Добавьте свой сайт или выберите из списка.
  3. Перейдите в раздел Сканирование – Файлы Sitemap.
  4. Выберите “добавить файл sitemap”, вставьте ссылку и добавьте карту сайта.

Добавление sitemap в robots.txt:
  1. Зайдите в корневой каталог сайта через ftp.
  2. Откройте файл robots.txt
  3. Добавьте в конец файла строку “Sitemap: [адрес сайта]/sitemap.xml” и сохраните файл.

Третий способ ускорить индексацию — сообщить поисковому боту о дате последнего изменения страницы. Для получения даты и времени изменения страницы боты используют данные из заголовка ответа сервера lastmod. Сообщить наличие изменений на странице можно с помощью кода ответа not modify.

Инструмент проверки заголовка lastmod и ответа сервера not modify.

Наличие настроек lastmod и not modify позволяют поисковой системе быстро получить информацию о том, изменилась ли страница с даты последнего сканирования. Благодаря этому поисковой бот ставит в приоритет новые и измененные страницы, а новые страницы быстрее индексируются.

Для настройки lastmod и not modify вам нужно будет обратиться к веб разработчику.

Этап 2: Обработка данных

Перед тем как сохранить информацию в базу данных, она проходит обработку и структуризацию, которая необходима для ускорения дальнейшего поиска.

В первом шаге обработки программа-индексатор формирует страницу с учетом всех стилей, скриптов и эффектов. В этот момент программа-индексатор понимает расположение элементов на странице, определяет видимые и невидимые пользователю части, разделяет страницу на навигацию и содержание.

Важно чтобы google bot имел полный доступ к css и js файлам, ведь без них индексатор не сможет понять структуру страницы. Для проверки доступности всех служебных файлов зайдите в Google Search Console, отчет “Посмотреть как Googlebot” в разделе “Сканирование”. Проверьте с помощью этого инструмента основные страницы сайта, обратите внимание на различия между тем, как вашу страницу видит поисковой бот и как ее видит пользователи. Изучите таблицу из отчета. Все ресурсы, которые размещены на вашем домене, должны быть открыты для сканирования.

Сейчас Google использует алгоритм индексации, который называется Caffeine. Он был запущен в 2009 году. Основные задачи этого алгоритма:

  • Обработка современных страниц, использующих сложные js и css элементы.
  • Максимально быстрое сканирование всех страниц в Интернете.
Анализ текста при индексации

После разделения страницы на зоны и определения их важности, алгоритм выделяет из содержания основные элементы для дальнейших расчетов. Так одним из самых популярных показателей, которые поисковая система извлекает из страницы, является частота упоминания ключевого слова.

Стоит отметить, что перед расчетом частоты упоминания слова, индексатор проводит упрощение слов к элементарной форме. Этот процесс называется стеминг. Такое упрощение позволяет учитывать слово в разных словоформах как одно слово.

Частота упоминания (Term frecency, ТА) слова рассчитывается как отношение упоминания слова к общему количеству слов страницы. Пример: если на странице 100 слов и слово “машина” встречалось на ней 2 раза — частота упоминания слова “машина” будет равна TF=0,02

Самый простой поисковой индекс легко представить в виде огромной таблицы, в столбцах которой перечислены все слова языка, а в строках — адреса всех страниц. При этом в ячейках указаны частоты слов на соответствующих страницах.

Именно такая таблица позволяет поисковой системе быстро находить страницы, которые содержат нужные слова. Конечно современные поисковые системы учитывают не только частоту упоминания слов, но и более сложные факторы. Поисковой индекс Google значительно сложнее чем приведенный пример.

Анализируя содержание поисковая система проверяет уникальность страницы. Тексты и прочее содержание, которое уже было проиндексировано на других страницах, не несет ценности для системы, так как не добавляет в базу новой информации. А это значит, что страницы с низкой уникальностью могут быть не проиндексированы. Проверить уникальность достаточно просто с помощью бесплатных инструментов.
Старайтесь создавать максимально уникальный и полезный контент и он точно будет проиндексирован.

От чего зависит индексация сайта?

  1. Доступность сайта для индексации — если сканирование сайта запрещено поисковая система не сможет получить его страницы. Подробнее о инструментах управления индексацией: youtube.com Внутренняя оптимизация: robots.txt, sitemap
  2. Количество ссылок на ваш сайт — ссылки, это пути которые приводят поисковых роботов к вам на сайт. Чем больше ссылок с популярных ресурсов вы получаете, тем чаще будут сканироваться страницы вашего сайта.
  3. Частота обновления сайта. Поисковые системы всегда ищут новый интересный контент, чем чаще вы публикуете новое уникальное содержание, тем быстрее поисковая система будет его сканировать.
  4. Наличие сайта в инструментах поисковых систем. Видео в тему: Как зарегистрировать сайт в Google Search Console.

Подведем итоги

  • Индексация — это процесс сканирования и обработки содержания для хранения в базе данных поисковой системы.
  • Ускорить индексацию можно с помощью ссылок, карты сайта и настроек сервера.
    Чтобы поисковая система понимала ваши страницы, все ресурсы вашего сайта должны быть доступны поисковому боту.

Мы можем проверить и настроить индексацию вашего сайта за вас.

SEO аудит с рекомендациями за 10 дней.

Надеюсь у вас больше не возникнет вопрос: “Что такое индексация сайта”.

Артем Пилипець

Керівник відділу пошукової оптимізації SEO7. Ведучий Youtube каналу Школа SEO

Почему индексация веб-сайтов необходима маркетологам

Что вы знаете об индексации веб-сайтов?

Если это почти ничего, вы не одиноки.

Индексация веб-сайта — это не то, что вы делаете как маркетолог, а процесс, который поисковая система выполняет, когда вы публикуете новый контент в Интернете. Что нужно знать маркетологам, так это как убедиться, что вы правильно настроили индексацию для .

Проиндексированный веб-сайт помогает сайту или странице действительно появляться в результатах поиска, что обычно является первым шагом к ранжированию и созданию трафика.

Теперь, когда мы рассмотрели, почему проиндексированный веб-сайт важен для SEO, давайте рассмотрим, как вы можете подготовиться к индексации своего собственного сайта.

Что значит индексировать ваш сайт?

В двух словах, индексирование веб-сайтов — это процесс, который поисковые системы используют для понимания функций вашего веб-сайта и каждой страницы на этом веб-сайте. Это помогает Google найти ваш веб-сайт, добавить его в свой индекс, связать каждую страницу с искомыми темами, вернуть этот сайт на страницы результатов поисковой системы (SERP) и, в конечном итоге, привлечь нужных людей к вашему контенту.

Подумайте о том, как работает индекс в книгах: это запись полезных слов и информации, которая дает больше контекста по теме. Это именно то, что индексация веб-сайта делает в контексте страниц результатов поисковой системы (SERP).

То, что вы видите в поисковой системе, — это не Интернет. Это индекс поисковой системы в Интернете. Это важно, потому что не каждая страница, которую вы публикуете в Интернете, гарантированно привлечет внимание поисковой системы. Как владелец веб-сайта, вам нужно сделать несколько вещей, чтобы добавить его в этот индекс.

Google индексирует веб-сайты, содержащие несколько ключевых компонентов. Взгляните на них ниже:

  • Соответствует популярным запросам.
  • Легкая навигация для создания домашней страницы веб-сайта.
  • Ссылки на другие страницы в домене вашего сайта и за его пределами.
  • Не быть «заблокированным» от индексации из-за использования определенных метатегов (подробнее об этом позже).

Это потому, что ключевые слова подобны пингу для поисковой системы: они сообщают Google, о чем ваш контент, в нескольких словах, которые могут быть переданы обратно в поисковые запросы.

Наличие ключевых слов — это лишь один из факторов, который Google принимает во внимание перед индексацией веб-сайтов. Другие требования включают в себя отсутствие «битых» страниц или ссылок или сложный веб-дизайн, который мешает пользователю легко найти страницу или понять вопрос, на который отвечает эта страница.

В следующем разделе мы рассмотрим, почему Google учитывает определенные факторы при индексировании веб-сайтов и как проиндексировать ваш веб-сайт.

Индексация веб-сайтов

Индексация веб-сайтов — это процесс, посредством которого поисковая система добавляет веб-контент в свой индекс. Это делается путем «сканирования» веб-страниц по ключевым словам, метаданным и связанным с ними сигналам, которые сообщают поисковым системам, следует ли и где ранжировать контент. Проиндексированные веб-сайты должны иметь удобную для навигации, легко находимую и понятную контент-стратегию.

Наличие проиндексированного веб-сайта гарантирует, что ваш сайт сможет отображаться в результатах поиска. Например, если ваш веб-сайт посвящен сети B2B, наличие таких ключевых слов, как «бизнес для бизнеса» и «сетевое взаимодействие» на вашем сайте, может помочь Google понять, как ваш контент связан с этими поисковыми запросами. Однако имейте в виду, что свежесть контента (насколько недавно он был опубликован), а также то, какие другие страницы ссылаются на него, также играют ключевую роль в способности Google найти и проиндексировать ваш сайт.

Теперь, когда вы лучше понимаете, что такое индексация веб-сайтов, давайте обсудим, сколько времени занимает этот процесс и как заставить Google проиндексировать ваш сайт.

Сколько времени требуется Google для индексации веб-сайта?

Google не очень избирательно индексирует веб-сайты. Фактически, он проиндексирует любой сайт, соответствующий критериям.

Хотя это может варьироваться, поиск веб-сайта Google может занять от нескольких дней до нескольких недель. Есть несколько факторов, которые незначительно влияют на скорость индексации веб-сайта Google, например популярность веб-сайта, правильная оптимизация и общая структура веб-сайта.

Распространенные ошибки могут повлиять на индексацию сайта Google.

Для подготовки наберитесь терпения, проверьте дизайн своего веб-сайта и обновите его, если считаете это необходимым.

Рекомендации по индексации веб-сайтов

Ну, во-первых, было бы упущением, если бы мы не предложили вам провести аудит вашего сайта с помощью бесплатного средства оценки веб-сайтов HubSpot. Используйте этот инструмент, чтобы определить основные проблемы SEO вашего сайта и то, как эти проблемы могут повлиять на индексируемость вашего домена.

Далее ознакомьтесь с приведенными ниже советами.

Отслеживание страниц после их публикации.

Как правило, наиболее распространенная причина того, что веб-сайт не индексируется, заключается в том, что он новый. Это может иметь место для вас, особенно если вы рассмотрели свои основы, убедились, что страница не содержит тега «noindex», имеет четкую стратегию ссылок и легко связана с другими страницами на вашем сайте.

Убедитесь, что вы не блокируете индексацию с помощью «noindex».

Сайт с тегом «noindex» заблокирует возможность Google индексировать веб-страницу. Одна из причин, по которой веб-страница может иметь этот тег, заключается в том, что она предназначена для просмотра только определенными подписчиками, поэтому Google не найдет ее и не представит широкой публике в качестве результата поиска.

Создание сканируемых страниц.

Затем убедитесь, что ваш веб-сайт доступен для сканирования. Проверьте, не блокирует ли структура вашего сайта способность индексации поисковой системы. У Google есть контрольный список того, как это сделать, на их веб-сайте поддержки здесь, но несколько общих правил включают создание карты сайта, сообщение Google о дублирующемся контенте и использование специальных тегов, понятных Google.

Настройте перенаправления и отслеживайте трафик после переноса сайта.

Наконец, если вы недавно перенесли свой сайт, это может быть причиной того, что Google не сканирует новый домен. Если ваш сайт был временно недоступен в течение определенного периода времени, возможно, Google обнаружил ошибки сканирования при индексировании вашего сайта и не смог завершить процесс. Вы также должны убедиться, что переадресация 301 настроена для перенаправления трафика со старого домена на новый.

Когда ваш веб-сайт будет готов к индексации Google, вот что вам нужно сделать со своей стороны:

Как проиндексировать ваш веб-сайт в Google

Во-первых, вам необходимо подтвердить свой веб-сайт в консоли поиска Google. Это означает, что вы подтвердите для Google, что вы являетесь владельцем веб-сайта. Затем вам нужно будет запросить у Google сканирование URL-адресов вашего веб-сайта.

Чтобы избежать проблем с миграцией/индексацией, убедитесь, что, если ваш сайт недавно был перемещен, вы соблюдаете рекомендации Google по перемещению сайта, чтобы вы могли убедиться, что ваш новый адрес правильно проиндексирован в поисковой системе.

Помните, что веб-страницы, которые повреждены (очевидно в коде ошибки «404») или трудны для чтения Google, вероятно, не будут проиндексированы.

Кроме того, оптимизация веб-сайта включает добавление ключевых слов на веб-страницы, сообщения в блогах и URL-адреса, а также архивирование содержимого. Наше руководство по SEO — это глубокое погружение в оптимизацию контента веб-сайта, а также освежение знаний для проверки вашей работы перед запросом на индексацию.

Индексация веб-сайта требует немного времени и терпения. Выполнив работу по максимально возможной оптимизации контента веб-сайта перед отправкой запроса в Google, процесс пройдет более гладко.

Темы: SEO

Не забудьте поделиться этим постом!

Как работает индексирование веб-сайтов (и как сделать так, чтобы оно работало лучше)

Автор Дэвид Хантер, генеральный директор Epic Web Studios и ASAPmaps в Эри, штат Пенсильвания. Он также стал соучредителем dbaPlatform, местного программного обеспечения для SEO.

getty

Предположим, вы только что создали самый объективно полезный, увлекательный и блестящий веб-контент. Теперь предположим, что контент остался невидимым и неслыханным, ни разу не появившись в результатах поиска. Хотя это может показаться недобросовестным, именно поэтому вы не можете игнорировать индексацию веб-сайтов.

Поисковые системы, такие как Google, любят предоставлять хорошие материалы так же, как и вы любите открывать их, но они не могут предоставлять пользователям результаты, которые не были предварительно проиндексированы. Поисковые системы постоянно пополняют свои колоссальные библиотеки проиндексированных URL-адресов, запуская разведчиков, называемых «пауками» или «веб-сканерами», для поиска нового контента.

Как поисковые роботы индексируют содержимое

Даже для пауков в Интернете много возможностей для навигации, поэтому они полагаются на ссылки, указывающие им путь от страницы к странице. В частности, они обращают внимание на новые URL-адреса, измененные сайты и мертвые ссылки. Когда поисковые роботы находят новые или недавно измененные страницы, они отображают их так же, как веб-браузер, видя то, что видите вы.

Однако, если вы можете быстро просмотреть содержимое в поисках нужной информации, поисковые роботы работают гораздо тщательнее. Они масштабируют страницу вверх и вниз, создавая индексную запись для каждого уникального слова. Таким образом, на одну веб-страницу могут ссылаться сотни (если не тысячи) записей указателя!

ДОПОЛНИТЕЛЬНО ДЛЯ ВАС

Знакомство с поисковыми роботами

В любой момент времени в Интернете могут сканировать сотни различных поисковых роботов, как хороших, так и плохих (например, тех, кто пытается очистить каталоги электронной почты или собрать личную информацию). для рассылки спама). Но есть несколько, о которых вы хотите знать особенно.

• Googlebot (Google)

• Bingbot (Bing)

• Slurp (Yahoo)

• Facebot (внешние ссылки Facebook)

• Искатель Alexa (также известный как ia_archiver, для Alexa Amazon)

2 Robots. txt и метадирективы

Могут быть ситуации, когда вы не хотите индексировать определенные страницы, например:

отправка формы, страница с промокодом)

• Те, которые предназначены только для внутреннего использования (в целях тестирования или подготовки)

• Те, которые содержат частную или личную информацию 

Более того, Googlebot и другие известные поисковые роботы имеют встроенные бюджеты сканирования — они будут сканировать только определенное количество URL-адресов. на вашем сайте, прежде чем двигаться дальше (хотя следует отметить, что краулинговые бюджеты на 90 007 больше, чем на 90 008 по сравнению с тем, что было раньше).

Итак, как администратор сайта, вы хотите не только установить некоторые правила, но и установить некоторые приоритеты (оптимизация бюджета сканирования). Есть два основных способа сделать это: файлы robots.txt и метадирективы.

Robots.txt

Файл robots.txt сообщает поисковым роботам, где они должны и не идти на ваш сайт, хотя не все из них будут слушать. Чтобы получить к нему доступ, просто добавьте /robots.txt в конец вашего URL-адреса (если ничего не появляется, значит, у вас его нет). Базовый синтаксис инструкции robots.txt очень прост:

1. Пользовательский агент: [вставьте имя пользовательского агента (т. е. сканера/паука/бота, которому вы хотите из всех оставьте звездочку *)]

2. Запретить: [вставьте строку URL, которую вы не хотите, чтобы поисковый робот посещал — можно использовать отдельную обратную косую черту, чтобы указать определенным поисковым роботам вообще не сканировать ваш сайт ]

«Запретить» — наиболее распространенная инструкция. вы укажете в robots.txt, но вы также можете предложить «Crawl-Delay» (количество миллисекунд, которое сканер должен ждать перед загрузкой указанного URL-адреса), «Разрешить» исключение в строке запрещенного URL-адреса (только Googlebot ) или отправьте файл «Sitemap» в формате XML, содержащий наиболее важные URL-адреса вашего веб-сайта — ключ к оптимизации краулингового бюджета.

Мета-директивы

Мета-директивы роботов (также известные как метатеги) сообщают поисковым роботам, что они могут и не могут делать в отношении индексации, хотя, опять же, вредоносные боты могут их игнорировать. Поскольку это прописано в коде веб-страницы, это скорее требование, чем предложение. Используя различные параметры, администраторы веб-сайтов могут точно настроить, будет ли страница индексироваться (и как долго), будут ли переходить по ее ссылкам, может ли поисковая система извлекать фрагменты и многое другое.

Индексируется ли ваш сайт?

Вот наиболее распространенные причины, по которым ваш сайт может не индексироваться:

• Ваш файл robots.txt или метатеги блокируют поисковые роботы.

• Это совершенно новый сайт — например, Googlebot может индексировать новый сайт от нескольких недель до месяцев, в зависимости от его размера.

• На него нет ссылок из других источников в Интернете.

• Навигация по сайту затруднена.

• Ваш сайт был помечен как черный метод SEO.

Как сделать ваш сайт более доступным для сканирования

Вот несколько способов улучшить индексирование вашего сайта.

Будьте организованы.

Поскольку ссылки являются основным способом перемещения сканера, убедитесь, что на вашем сайте есть четкие пути навигации. Если вы хотите, чтобы что-то было проиндексировано, это обязательно должно быть связано с каким-то другим местом на сайте — как минимум минимум из главного меню навигации, но в идеале с других релевантных, связанных страниц по всему сайту.

Уменьшение препятствий.

Старайтесь не прятать важный контент за логинами, формами и опросами. Сканеры не могут читать текст внутри изображений, видео и GIF-файлов, поэтому обязательно применяйте замещающий текст к медиафайлам. Навигационные меню, написанные не на HTML (например, на JavaScript), также не видны паукам.