Содержание

Как составить robots.txt самостоятельно

Как правильно составить robots.txt и зачем он нужен, как закрыть индексацию через robots.txt и бесплатно проверить robots.txt с помощью онлайн-инструментов.

Как поисковики сканируют страницу

Роботы-краулеры Яндекса и Google посещают страницы сайта, оценивают содержимое, добавляют новые ресурсы и информацию о страницах в индексную базу поисковика. Боты посещают страницы регулярно, чтобы переносить в базу обновления контента, отмечать появление новых ссылок и их доступность.

Зачем нужно сканирование:
  1. Собрать данные для построения индекса — информацию о новых страницах и обновлениях на старых.
  2. Сравнить URL в индексе и в списке для сканирования.
  3. Убрать из очереди дублирующиеся URL, чтобы не скачивать их дважды.

Боты смотрят не все страницы сайта. Количество ограничено краулинговым бюджетом, который складывается из количества URL, которое может просканировать бот-краулер. Бюджета на объемный сайт может не хватить. Есть риск, что краулинговый бюджет уйдет на сканирование неважных или «мусорных» страниц, а чтобы такого не произошло, веб-мастеры направляют краулеров с помощью файла

robots.txt.

Боты переходят на сайт и находят в корневом каталоге файл robots.txt, анализируют доступ к страницам и переходят к карте сайта — Sitemap, чтобы сократить время сканирования, не обращаясь к закрытым ссылкам. После изучения файла боты идут на главную страницу и оттуда переходят в глубину сайта.

Как узнать, попала ли страница сайта в индекс Яндекса или Google
Какие страницы краулер просканирует быстрее:
  1. Находятся ближе к главной.
    Чем меньше кликов с главной ведет до страницы, тем она важнее и тем вероятнее ее посетит краулер. Количество переходов от главной до текущей страницы называется Click Distance from Index (DFI).
  2. Имеют много ссылок.
    Если многие ссылаются на страницу, значит она полезная и имеет хорошую репутацию. Нормальным считается около 11-20 ссылок на страницу, перелинковка между своими материалами тоже считается.
  3. Быстро загружаются.
    Проверьте скорость загрузки инструментом, если она медленная — оптимизируйте код верхней части и уменьшите вес страницы.

Все посещения ботов-краулеров не фиксируют такие инструменты, как Google Analytics, но поведение ботов можно отследить в лог-файлах. Некоторые SEO-проблемы крупных сайтов можно решить с помощью анализа лог-файлов который также поможет увидеть проблемы со ссылками и распределение краулингового бюджета.

Посмотреть на сайт глазами поискового бота

Robots.txt для Яндекса и Google

Веб-мастеры могут управлять поведением ботов-краулеров на сайте с помощью файла robots.txt. Robots.txt — это текстовый файл для роботов поисковых систем с указаниями по индексированию.

В нем написано какие страницы и файлы на сайте нельзя сканировать, что позволяет ботам уменьшить количество запросов к серверу и не тратить время на неинформативные, одинаковые и неважные страницы.

В robots.txt можно открыть или закрыть доступ ко всем файлам или отдельно прописать, какие файлы можно сканировать, а какие нет.

Требования к robots.txt:
  • файл называется «robots.txt«, название написано только строчными буквами, «Robots.TXT» и другие вариации не поддерживаются;
  • располагается только в корневом каталоге — https://site.com/robots.txt, в подкаталоге быть не может;
  • на сайте в единственном экземпляре;
  • имеет формат .txt;
  • весит до 32 КБ;
  • в ответ на запрос отдает HTTP-код со статусом 200 ОК;
  • каждый префикс URL на отдельной строке;
  • содержит только латиницу.

Если домен на кириллице, для robots. txt переведите все кириллические ссылки в Punycode с помощью любого Punycode-конвертера: «сайт.рф» — «xn--80aswg.xn--p1ai».

Robots.txt действует для HTTP, HTTPS и FTP, имеет кодировку UTF-8 или ASCII и направлен только в отношении хоста, протокола и номера порта, где находится.

Его можно добавлять к адресам с субдоменами — http://web.site.com/robots.txt или нестандартными портами — http://site.com:8181/robots.txt. Если у сайта несколько поддоменов, поместите файл в корневой каталог каждого из них.

Как исключить страницы из индексации с помощью robots.txt

В файле robots.txt можно запретить ботам индексацию некоторого контента.

Яндекс поддерживает стандарт исключений для роботов (Robots Exclusion Protocol). Веб-мастер может скрыть содержимое от индексирования ботами Яндекса, указав директиву «disallow». Тогда при очередном посещении сайта робот загрузит файл robots.txt, увидит запрет и проигнорирует страницу.

Другой вариант убрать страницу из индекса — прописать в HTML-коде мета-тег «noindex» или «none».

Google предупреждает, что robots.txt не предусмотрен для блокировки показа страниц в результатах выдачи. Он позволяет запретить индексирование только некоторых типов контента: медиафайлов, неинформативных изображений, скриптов или стилей. Исключить страницу из выдачи Google можно с помощью пароля на сервере или элементов HTML — «noindex» или атрибута «rel» со значением «nofollow».

Если на этом или другом сайте есть ссылка на страницу, то она может оказаться в индексе, даже если к ней закрыт доступ в файле robots.txt.

Закройте доступ к странице паролем или «nofollow» , если не хотите, чтобы она попала в выдачу Google. Если этого не сделать, ссылка попадет в результаты но будет выглядеть так:

Доступная для пользователей ссылка

Такой вид ссылки означает, что страница доступна пользователям, но бот не может составить описание, потому что доступ к ней заблокирован в robots.

txt.

Содержимое файла robots.txt — это указания, а не команды. Большинство поисковых ботов, включая Googlebot, воспринимают файл, но некоторые системы могут его проигнорировать.

Если нет доступа к robots.txt

Если вы не имеете доступа к robots.txt и не знаете, доступна ли страница в Google или Яндекс, введите ее URL в строку поиска.

На некоторых сторонних платформах управлять файлом robots.txt нельзя. К примеру, сервис Wix автоматически создает robots.txt для каждого проекта на платформе. Вы сможете посмотреть файл, если добавите в конец домена «/robots.txt».

В файле будут элементы, которые относятся к структуре сайтов на этой платформе, к примеру «noflashhtml» и «backhtml». Они не индексируются и никак не влияют на SEO.

Если нужно удалить из выдачи какие-то из страниц ресурса на Wix, используйте «noindex».

Как составить robots.txt правильно

Файл можно составить в любом текстовом редакторе и сохранить в формате txt.

В нем нужно прописать инструкцию для роботов: указание, каким роботам реагировать, и разрешение или запрет на сканирование файлов.

Инструкции отделяют друг от друга переносом строки.

Символы robots.txt

«*» — означает любую последовательность символов в файле.

«$» — ограничивает действия «*», представляет конец строки.

«/» — показывает, что закрывают для сканирования.

«/catalog/» — закрывают раздел каталога;

«/catalog» — закрывают все ссылки, которые начинаются с «/catalog».

«#» — используют для комментариев, боты игнорируют текст с этим символом.

User-agent: *
Disallow: /catalog/
#запрещаем сканировать каталог

Директивы robots.txt

Директивы, которые распознают все краулеры:

User-agent

На первой строчке прописывают правило User-agent — указание того, какой робот должен реагировать на рекомендации. Если запрещающего правила нет, считается, что доступ к файлам открыт.

Для разного типа контента поисковики используют разных ботов:

  • Google: основной поисковый бот называется Googlebot, есть Googlebot News для новостей, отдельно Googlebot Images, Googlebot Video и другие;
  • Яндекс: основной бот называется YandexBot, есть YandexDirect для РСЯ, YandexImages, YandexCalendar, YandexNews, YandexMedia для мультимедиа, YandexMarket для Яндекс.Маркета и другие.

Для отдельных ботов можно указать свою директиву, если есть необходимость в рекомендациях по типу контента.

User-agent: * — правило для всех поисковых роботов;

User-agent: Googlebot — только для основного поискового бота Google;

User-agent: YandexBot — только для основного бота Яндекса;

User-agent: Yandex — для всех ботов Яндекса. Если любой из ботов Яндекса обнаружит эту строку, то другие правила User-agent: * учитывать не будет.

Sitemap

Указывает ссылку на карту сайта — файл со структурой сайта, в котором перечислены страницы для индексации:

User-agent: *
Sitemap: http://site.com/sitemap.xml

Некоторые веб-мастеры не делают карты сайтов, это не обязательное требование, но лучше составить Sitemap — этот файл краулеры воспринимают как структуру страниц, которые не можно, а нужно индексировать.

Disallow

Правило показывает, какую информацию ботам сканировать не нужно.

Если вы еще работаете над сайтом и не хотите, чтобы он появился в незавершенном виде, можно закрыть от сканирования весь сайт:

User-agent: *
Disallow: /

После окончания работы над сайтом не забудьте снять блокировку.

Разрешить всем ботам сканировать весь сайт:

User-agent: *
Disallow:

Для этой цели можно оставить robots. txt пустым.

Чтобы запретить одному боту сканировать, нужно только прописать запрет с упоминанием конкретного бота. Для остальных разрешение не нужно, оно идет по умолчанию:

User-agent: BadBot 
Disallow: /

Чтобы разрешить одному боту сканировать сайт, нужно прописать разрешение для одного и запрет для остальных:

User-agent: Googlebot
Disallow: 
User-agent: * 
Disallow: /

Запретить ботам сканировать страницу:

User-agent: *
Disallow: /page.html

Запретить сканировать конкретную папку с файлами:

User-agent: *
Disallow: /name/

Запретить сканировать все файлы, которые заканчиваются на «.pdf»:

User-agent: *
Disallow: /*.pdf$

Запретить сканировать раздел http://site.com/about/:

User-agent: *
Disallow: /about/

Запись формата «Disallow: /about» без закрывающего «/» запретит доступ и к разделу http://site. com/about/, к файлу http://site.com/about.php и к другим ссылкам, которые начинаются с «/about».

Если нужно запретить доступ к нескольким разделам или папкам, для каждого нужна отдельная строка с Disallow:

User-agent: *
Disallow: /about
Disallow: /info
Disallow: /album1
Allow

Директива определяет те пути, которые доступны для указанных поисковых ботов. По сути, это Disallow-наоборот — директива, разрешающая сканирование. Для роботов действует правило: что не запрещено, то разрешено, но иногда нужно разрешить доступ к какому-то файлу и закрыть остальную информацию.

Разрешено сканировать все, что начинается с «/catalog», а все остальное запрещено:

User-agent: *
Allow: /catalog 
Disallow: /

Сканировать файл «photo.html» разрешено, а всю остальную информацию в каталоге /album1/ запрещено:

User-agent: *
Allow: /album1/photo.html 
Disallow: /album1/

Заблокировать доступ к каталогам «site. com/catalog1/» и «site.com/catalog2/» но разрешить к «catalog2/subcatalog1/»:

User-agent: * 
Disallow: /catalog1/ 
Disallow: /catalog2/ 
Allow: /catalog2/subcatalog1/

Бывает, что для страницы оказываются справедливыми несколько правил. Тогда робот будет отсортирует список от меньшего к большему по длине префикса URL и будет следовать последнему правилу в списке.

Директивы, которые распознают боты Яндекса:

Clean-param

Некоторые страницы дублируются с разными GET-параметрами или UTM-метками, которые не влияют на содержимое. К примеру, если в каталоге товаров использовали сортировку или разные id.

Чтобы отследить, с какого ресурса делали запрос страницы с книгой book_id=123, используют ref:

«www.site. com/some_dir/get_book.pl?ref=site_1& book_id=123″
«www.site. com/some_dir/get_book.pl?ref=site_2& book_id=123″
«www. site. com/some_dir/get_book.pl?ref=site_3& book_id=123″

Страница с книгой одна и та же, содержимое не меняется. Чтобы бот не сканировал все варианты таких страниц с разными параметрами, используют правило Clean-param:

User-agent: Yandex 
Disallow: 
Clean-param: ref/some_dir/get_book.pl

Робот Яндекса сведет все адреса страницы к одному виду:

«www.example. com/some_dir/get_book.pl? book_id=123″

Для адресов вида:
«www.example2. com/index.php? page=1&sid=2564126ebdec301c607e5df»
«www.example2. com/index.php? page=1&sid=974017dcd170d6c4a5d76ae»

robots.txt будет содержать:

User-agent: Yandex
Disallow:
Clean-param: sid/index.php

Для адресов вида

«www.example1. com/forum/showthread.php? s=681498b9648949605&t=8243″
«www.example1. com/forum/showthread. php? s=1e71c4427317a117a&t=8243″

robots.txt будет содержать:

User-agent: Yandex 
Disallow: 
Clean-param: s/forum/showthread.php

Если переходных параметров несколько:
«www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311″
«www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896″

robots.txt будет содержать:

User-agent: Yandex 
Disallow: 
Clean-param: s&ref/forum*/showthread.php
Host

Правило показывает, какое зеркало учитывать при индексации. URL нужно писать без «http://» и без закрывающего слэша «/».

User-agent: Yandex
Disallow: /about
Host: www.site.com

Сейчас эту директиву уже не используют, если в ваших robots.txt она есть, можно удалять. Вместо нее нужно на всех не главных зеркалах сайта поставить 301 редирект.

Crawl-delay

Раньше частая загрузка страниц нагружала сервер, поэтому для ботов устанавливали Crawl-delay — время ожидания робота в секундах между загрузками. Эту директиву можно не использовать, мощным серверам она не требуется.

Время ожидания — 4 секунды:

User-agent: *
Allow: /album1 
Disallow: /
Crawl-delay: 4
Только латиница

Напомним, что все кириллические ссылки нужно перевести в Punycode с помощью любого конвертера.

Неправильно:

User-agent: Yandex 
Disallow: /каталог

Правильно:

User-agent: Yandex
Disallow: /xn--/-8sbam6aiv3a
Пример robots.txt

Запись означает, что правило справедливо для всех роботов: запрещено сканировать ссылки из корзины, из встроенного поиска и админки, карта сайта находится по ссылке http://site.com/sitemap, ref не меняет содержание страницы get_book:

User-agent: *
Disallow: /bin/ 
Disallow: /search/ 
Disallow: /admin/ 
Sitemap: http://site.com/sitemap
Clean-param: ref/some_dir/get_book.pl

Инструменты для составления и проверки robots.

txt

Составить robots.txt бесплатно поможет инструмент для генерации robots.txt от PR-CY, он позволит закрыть или открыть весь сайт для ботов, указать путь к карте сайта, настроить ограничение на посещение страниц, закрыть доступ некоторым роботам и установить задержку:

Графы инструмента для заполнения

Для проверки файла robots.txt на ошибки у поисковиков есть собственные инструменты:

Инструмент проверки файла robots.txt от Google позволит проверить, как бот видит конкретный URL. В поле нужно ввести проверяемый URL, а инструмент покажет, доступна ли ссылка.

Инструмент проверки от Яндекса покажет, правильно ли заполнен файл. Нужно указать сайт, для которого создан robots.txt, и перенести его содержимое в поле.


Файл robots.txt не подходит для блокировки доступа к приватным файлам, но направляет краулеров к карте сайта и дает рекомендации для быстрого сканирования важных материалов ресурса.

как правильно составить и для чего он нужен

Поисковые роботы индексируют всё, что находят. Даже админпанель с личной информацией. Robots.txt — это специальный файл для ботов с правилами, по которым они начинают работать с вашим сайтом. В этом файле вы и прописываете всё, что разрешаете или запрещаете им делать.

Важный файл robots.txt

Для чего нужен

Для того, чтобы ваш сайт быстрее индексировался, в поиск не попадали ненужные страницы или приватная информация. «Ненужные страницы» — это дубликаты товарных категорий, личная информация, формы отправки данных, страницы с результатами поиска и т.п. Robots.txt устанавливает строгие правила для поисковиков, если же эти правила не указать, то вся ваша информация окажется в сети и удалить её из архивов интернета будет практически нереально.

Где писать этот файл и где его располагать

Писать можно в любом удобном для вас редакторе — в обычном встроенном блокноте для Windows, NotePad или Word — не суть. Главное, чтобы этот файл был сохранён в текстовом формате, то есть с расширением .txt.

В нашей системе вставить инструкцию для поисковых ботов на сайт очень просто: выберите в левой панели управления сайтом раздел «Реклама/SEO → Управление robots.txt».

Управление robots.txt находится в разделе «Реклама/SEO»

И в открывшееся поле вы просто вставляете готовую инструкцию (с помощью функции «копировать — вставить»).

На нашем сервисе файл robots.txt автоматически генерируется системой. В большинстве случаев он полностью отвечает всем требованиям поисковых роботов и закрывает от индексации те страницы, которые не должны быть на виду. Но вы можете создать свою инструкцию или внести любые изменения в готовый файл. В случае необходимости всегда можно восстановить первоначальный вариант.

Правила синтаксиса robots.txt

Поисковый робот учитывает только определённые выражения и алгоритмы. Поэтому инструкция составляется на понятном ему «языке». Вот основные команды, которые «понимает» робот:

  • User-Agent: Имя бота поисковой системы. Для Яндекса это Yandex, для Google — Google-bot, для Mail.ru — Mail.ru. Весь список названий роботов-поисковиков перечислен на этой странице.
  • Allow — команда «разрешить».
  • Disallow — команда «запретить».
  • Host — имя вашего хостера (на 1C-UMI это robot.umi.ru).

Директива Allow не является обязательной, а вот Disallow нужно указывать. По умолчанию файл robots.txt разрешает всё, поэтому прописывать нужно только запрещающие команды.

Правильный синтаксис написания: команда → двоеточие → пробел → слеш (/) → точное наименование страницы.

Точное наименование страницы — это весь путь, который ведёт на указанную страницу, начиная с главной: мойсайт.рф — мода — женская мода — верхняя одежда — пальто — чёрное пальто в горошек.

Пример:

  • Вы разрешаете поисковому боту Яндекс индексировать всё, кроме страницы «Контакты»:
    • User-Agent: Yandex
    • Allow:
    • Disallow: /contacts
  • Если вы разрешаете индексировать сайт всем поисковым системам, то после User-Agent нужно поставить знак *:
    • User-Agent: *
  • Если вы ничего не запрещаете к индексации, то после disallow ничего не ставите:
    • Disallow:
  • Если вы запрещаете какому-то определённому боту индексировать свой сайт, то ставите его имя и запрещающую команду disallow вместе со слешем:
    • User-Agent: googlebot-image (робот-поисковик по картинкам в Гугл)
    • Disallow: /

Disallow относится только к тому боту, который указан перед командой. Для каждого робота нужно прописывать команды индивидуально.

Как не запутаться в названиях ботов и командах

Есть удобная функция «комментарий», которую вы можете использовать при составлении robots.txt. Всё, что вы хотите прокомментировать, оставить какое-либо уточнение, отмечайте символом #. Всё, что будет написано после этого знака, роботом не учитывается.

User-Agent: Yandex

Disallow: /Price/ #Не индексировать каталог с ценами.

Как установить период захода на сайт робота-поисковика

Чтобы уменьшить нагрузку на сервер, нужно использовать директиву (команду для робота-поисковика) Crawl-delay. Она устанавливает период, за который робот-поисковик должен обойти сайт, или время, за которое робот просмотрит все страницы сайта и внесёт их в индекс. Другими словами, эта директива позволяет ускорить обход сайта роботом. Обычно устанавливается на сайт-многостраничник. Если у вас страниц ещё немного, не больше двухсот, то этот параметр можно не указывать.

Прописывается это так:

  • User-Agent: Yandex
  • Disallow: /contacts
  • Craw-delay: 2 #Тайм-аут обхода 2 секунды

Тайм-аут обхода вы можете указать любой. Это не гарантирует, что на ваш сайт робот будет заходить каждые 2 (3, 4, 5…) секунд, вы просто даёте ему приблизительное время обхода. Если ваш сайт уже хорошо ранжируется, то роботы будут заходить на него чаще, если сайт ещё молод, то реже. В справке Яндекс об этом параметре написано подробней.

Ошибки при составлении robots.txt

Рассмотрим самые популярные ошибки, которые совершают пользователи при создании файла.

Ошибки

Правильно

Путаница в инструкциях

User-Agent: /

Disallow: Googlebot

User-Agent: Googlebot

Disallow: /

Несколько каталогов в одной строке Disallow

Disallow: /moda/ hat/ images

Disallow: /moda/

Disallow: /hat/

Disallow: /images/

Пустая строка в указании имени поискового робота

User-Agent:

Disallow:

User-Agent: *

Disallow:

Заглавные буквы

USER-AGENT: YANDEX

ALLOW:

User-Agent: Yandex

Allow:

Перечисление каждого файла в категории

User-Agent: Googlebot

Disallow: / moda/ krasnoe-palto. html

Disallow: /moda/ sinee-palto.html

Disallow: /moda/ zelenoe-palto.html

Disallow: /moda/ seroe-palto.html

Disallow: /price/ women.html

Disallow: /price/ men.html

User-Agent: Googlebot

Disallow: / moda/

Disallow: /price/

Не забывайте про знак слеш (/). Если его не будет, то робот запретит к индексации все файлы и категории с таким же названием. Например, если вы не укажете слеш в директиве: “Disallow: moda”, то из индекса выпадут все страницы, рубрики и категории, где встречается это название.

Правила написания robots.txt

  • Каждую команду надо писать с новой строки.
  • В одной строке — одна директива.
  • В начале строки не должно быть пробела.
  • Команды не берут в кавычки.
  • В конце директивы не ставится точка с запятой, запятая или точка.
  • Disallow: равнозначно Allow: / (всё разрешено).
  • Поисковые роботы чувствительны к регистру букв — прописывайте имена файлов и категорий точно так же, как они указаны на вашем сайте.
  • Если у вас нет robots.txt, это сигнал для поисковиков, что запрещений нет, индексировать можно всё.
  • В robots.txt используется только английский язык. Все другие языки игнорируются.

Как проверить robots.txt на правильность написания

Есть специальные сервисы, которые проверяют, правильно ли составлен разрешающий файл. Проверьте свой robots.txt на сайте Яндекс или в Гугл.

Автоматическое создание robots.txt

Если для вас сложно самостоятельно написать инструкцию для ботов, то создайте её автоматически. На сайте pr-cy файл будет сгенерирован за 10 секунд, просто укажите нужные вам параметры, потом скопируйте текст и вставьте его в поле для robots.txt на нашем сервисе.

Директивы — базовая информация

Директивы – это своеобразный свод правил поведения на страничках сайта для robots. txt. Считывая их, поисковый агент и понимает, какой контент можно использовать для индексации сайта, а какой нельзя.

Если директивы не прописать вовсе, поисковик скачает с вашего сайта всю информацию и проиндексирует. Последствием этих действий станет его медленная загрузка. Очевидно, что такие сайты меньше посещают пользователи и не помещают в вершинах выдачи поисковые системы.

Ниже перечислим разные типы директив, с пояснениями.

User-agent

Если перевести на простой язык, то «User-agent» — это призыв к некоему действию. После этого директива обычно прописывается наименование robots.txt, которому сообщается информация, а далее — уже сама информация. Иными словами,  User-agent — самая важная директива для robots.txt.

Вот так выглядят  директивы User-agent для разных поисковых машин:

  • User-agent: *; — для всех видов роботов.
  • User-agent: Yandex; — для роботов поисковика Яндекс.
  • User-agent: Googlebot. — для роботов поисковика Google.
  • User-agent: Mail.Ru. — для роботов Mail.ru
  • User-agent: Slurp – для роботов Yahoo!
  • User-agent: MSNBot – для роботов MSN
  • User-agent: StackRambler – для роботов Рамблера.

Disallow

Директива, запрещающая индексировать те или иные странички веб-сайта. Веб-мастера советуют прописывать ее для следующих типов страниц:

  • Корзине и всем сопутствующим оформлению заказа страничкам.
  • Поисковым формам.
  • Административной панели сайта.
  • Ajax, Json — эти скрипты выводят всплывающие формы для заполнения, рекламные баннеры и так далее.

Allow

Это директива, наоборот, открывает страничку сайта для чтения роботом.

Sitemap

Простыми словами — директива, отображающая карту вашего сайта. Сообщая роботу структуру вашего сайта, вы ускоряете его индексацию.

Host

Указывает поисковому роботу на зеркало вашего сайта, куда будут попадать пользователи.

Crawl-delay

Помогает снижать нагрузку на сервер, задавая минимальный временной интервал между обращениями к сервису.

Общие рекомендации любых директив:

  • Не прописывайте в одной строчке больше одной директивы.
  • Убирайте пробелы в начале строк.
  • Только полная директива без лишних символов будет работать.
  • Код файла robots.txt немыслим без Disallow.

Robots.txt напрямую влияет на индексацию сайта, поэтому обязательно установите свои правила для поисковых ботов. Успешного вам продвижения!

Страницы веб-роботов

В двух словах

Владельцы веб-сайтов используют файл /robots.txt для предоставления инструкций по свой сайт веб-роботам; это называется Исключение роботов Протокол .

Это работает следующим образом: робот хочет просмотреть URL-адрес веб-сайта, скажем, http://www.example.com/welcome.html. Прежде чем это сделать, он сначала проверяет наличие http://www.example.com/robots.txt и находит:

 Агент пользователя: *
Запретить: /
 

«User-agent: *» означает, что этот раздел относится ко всем роботам. «Запретить: /» сообщает роботу, что он не должен посещать страницы на сайте.

При использовании файла /robots.txt необходимо учитывать два важных момента:

  • роботы могут игнорировать ваш файл /robots.txt. Особенно вредоносные роботы, которые сканируют web на наличие уязвимостей в системе безопасности и сборщики адресов электронной почты, используемые спамерами не обратит внимания.
  • файл /robots.txt является общедоступным. Любой может видеть, какие разделы вашего сервера, который вы не хотите использовать роботами.

Так что не пытайтесь использовать /robots.txt, чтобы скрыть информацию.

Смотрите также:

  • Могу ли я заблокировать только плохих роботов?
  • Почему этот робот проигнорировал мой /robots.txt?
  • Каковы последствия файла /robots.txt для безопасности?

Детали

/robots.txt является стандартом де-факто и никому не принадлежит. орган стандартов. Есть два исторических описания:

  • оригинал 1994 г. Стандарт для роботов Документ об исключении.
  • Спецификация Internet Draft 1997 г. Метод для Интернета Управление роботами

Кроме того, есть внешние ресурсы:

  • HTML 4.01 Спецификация, Приложение B.4.1
  • Википедия — Стандарт исключения роботов

Стандарт /robots.txt активно не разрабатывается. См. Что насчет дальнейшего развития /robots.txt? для дальнейшего обсуждения.

Остальная часть этой страницы дает обзор того, как использовать /robots.txt на ваш сервер, с некоторыми простыми рецептами. Чтобы узнать больше, см. также FAQ.

Как создать файл /robots.txt

Куда поставить

Краткий ответ: в каталоге верхнего уровня вашего веб-сервера.

Более длинный ответ:

Когда робот ищет файл «/robots.txt» для URL, он удаляет компонент пути из URL (все, начиная с первой косой черты), и помещает «/robots.txt» на свое место.

Например, для «http://www.example.com/shop/index.html будет удалите «/shop/index.html» и замените его на «/robots.txt», и в итоге получится «http://www.example.com/robots.txt».

Итак, как владелец веб-сайта, вы должны поместить его в нужное место на своем веб-сайте. веб-сервер, чтобы этот результирующий URL-адрес работал. Обычно это одно и то же место, где вы размещаете приветствие «index.html» вашего веб-сайта страница. Где именно это находится и как туда поместить файл, зависит от программное обеспечение вашего веб-сервера.

Не забудьте использовать все строчные буквы для имени файла: «robots.txt», а не «Robots.TXT.

Смотрите также:

  • Какую программу следует использовать для создания файла /robots. txt?
  • Как использовать /robots.txt на виртуальном хосте?
  • Как использовать /robots.txt на общем хосте?
Что положить

Файл «/robots.txt» — это текстовый файл с одной или несколькими записями. Обычно содержит одну запись, имеющую вид:

Пользовательский агент: *
Запретить: /cgi-bin/
Запретить: /tmp/
Запретить: /~joe/
 

В этом примере исключены три каталога.

Обратите внимание, что вам нужна отдельная строка «Запретить» для каждого префикса URL, который вы хотите исключить — вы не можете сказать «Disallow: /cgi-bin/ /tmp/» на одна линия. Кроме того, в записи может не быть пустых строк, так как они используются для разделения нескольких записей.

Также обратите внимание, что подстановка и регулярное выражение не поддерживается либо в User-agent, либо в Disallow линии. ‘*’ в поле User-agent — это специальное значение, означающее «любой робот». В частности, у вас не может быть таких строк, как «User-agent: *bot*», «Запретить: /tmp/*» или «Запретить: *. gif».

То, что вы хотите исключить, зависит от вашего сервера. Все, что прямо не запрещено, считается справедливым игра, чтобы получить. Вот несколько примеров:

Исключить всех роботов со всего сервера
Пользовательский агент: *
Запретить: /
 
Чтобы разрешить всем роботам полный доступ
Пользовательский агент: *
Запретить:
 

(или просто создайте пустой файл «/robots.txt», или вообще не используйте его)

Исключить всех роботов из части сервера
Пользовательский агент: *
Запретить: /cgi-bin/
Запретить: /tmp/
Запретить: /мусор/
 
Для исключения одного робота
Агент пользователя: BadBot
Запретить: /
 
Для одного робота
Агент пользователя: Google
Запретить:
Пользовательский агент: *
Запретить: /
 
Чтобы исключить все файлы, кроме одного

В настоящее время это немного неудобно, так как нет поля «Разрешить». простой способ — поместить все файлы, которые нужно запретить, в отдельный директории, произнесите «stuff» и оставьте один файл на уровне выше этот каталог:

Пользовательский агент: *
Запретить: /~joe/stuff/
 

В качестве альтернативы вы можете явно запретить все запрещенные страницы:

Пользовательский агент: *
Запретить: /~joe/junk. html
Запретить: /~joe/foo.html
Запретить: /~joe/bar.html
 

Что такое файл robots.txt и как его создать?

Файл robots.txt — это инструмент, который вы можете использовать для управления тем, как поисковые системы видят ваш сайт. По сути, он сообщает поисковым системам, как вести себя при сканировании вашего контента. И они могут быть чрезвычайно ценными для SEO и общего управления сайтом.

Вот некоторые из вещей, о которых я расскажу в этой статье:

  • Что такое файл robots.txt?
  • Нужен ли мне файл robots.txt?
  • Как создать файл robots.txt
  • Некоторые примеры того, что включать в файл robots.txt
  • Использование robots.txt не является гарантией
  • robots.txt и WordPress
  • Генераторы файлов robots.txt

Краткая история поисковых роботов и винограда

У людей короткая и избирательная память. Например, мы принимаем Google как должное. Многие часто рассматривают его так, как будто интеллектуальный каталог (почти) всего в Интернете всегда был доступен.

Но ранние дни Интернета были темными и запутанными временами, братья и сестры. Не было разумного способа что-либо найти.

О, у нас были поисковые системы. WebCrawler был первым, о котором услышало большинство людей, и к нему быстро присоединился Lycos. Они проиндексировали все, что смогли найти в сети, и сработали. На самом деле, они работали слишком хорошо.

Когда вы ищете что-то конкретное, но вам нужно просмотреть все на свете , результаты поиска могут быть… менее чем полезными. Если вы когда-либо использовали WebCrawler, Lycos или любую другую поисковую систему, предшествовавшую Google (привет, AltaVista!), вы помните страницы и страницы результатов, которые не имели ничего общего с тем, что вы искали.

Индексирование всего было проблематичным

Проблема с индексированием всего заключается в том, что оно может привести — и часто приводило — к бесполезным результатам поиска. Поиск «Гроздья гнева», скорее всего, выдаст десятки страниц результатов, связанных с виноградом (плодом) и фильмом «Звездный путь: Гнев Хана », но ничего о Джоне Стейнбеке.

Что еще хуже, спамеры очень рано заметили несовершенство поисковых систем и воспользовались этим. Это часто приводило к загрузке страниц, полных слов и фраз, которые не имели ничего общего с некачественными продуктами или схемами Понци, которые они пытались навязать ничего не подозревающим 9.0005 веб-серферов .

Технические препятствия, связанные с тем, чтобы сделать результаты поиска «умнее», были преодолены еще несколько лет. Вместо этого мы получили такие вещи, как Yahoo!, которая была вовсе не поисковой системой, а скорее кураторским списком веб-сайтов. Яху! веб-сайты не были найдены, владельцы веб-сайтов сообщили Yahoo! где их найти.

Если это звучит ужасно ненаучно и не очень инклюзивно, то это потому, что так оно и было. Но это был лучший ответ на хаос и беспорядок результатов поисковых систем, который кто-либо мог придумать. Яху! стал де-факто отправной точкой для большинства людей, использующих Интернет, просто потому, что не было ничего лучше.

Восстание машин

«Роботы», о которых мы говорим, на самом деле являются компьютерными программами, а не пугающими человеко-машинами. Программы, которые индексируют Интернет, также известны под многими другими именами, включая пауков, ботов и поисковых роботов. Все названия относятся к одной и той же технологии.

Пара Стэнфордских докторов наук. Студенты по имени Ларри и Сергей со временем поняли, как сделать результаты поиска более релевантными. Однако в это время в сети прочесывали десятки других поисковых систем. Роботы непрерывно рыскали по сети, индексируя то, что находили. Но роботы — это не разумные формы жизни, это машины, поэтому они создали некоторые проблемы.

В первую очередь они проиндексировали много того, что владельцы сайтов не хотели индексировать. Это включало личную, конфиденциальную или конфиденциальную информацию, административные страницы и другие вещи, которые не обязательно принадлежат общедоступному каталогу.

Также по мере увеличения количества роботов увеличивалось их иногда негативное влияние на ресурсы веб-сервера. Серверы в те дни не были такими надежными и мощными, как сейчас. Шквал пауков и ботов, яростно загружающих страницы сайта, может замедлить время отклика сайта.

Людям в Интернете нужен был способ управления роботами, и они нашли свое оружие в скромном, но мощном файле robots.txt .

Что такое файл robots.txt?

Файл robots.txt представляет собой текстовый формат, содержащий инструкции, которым должны следовать поисковые роботы и поисковые роботы.

Я говорю «должны», потому что ничто не требует от сканера или бота выполнения инструкций в файле robots.txt. Основные игроки следуют большинству (но не всем) правил, но некоторые боты полностью игнорируют директивы в вашем файле robots.txt.

Файл robots.txt находится в корневом каталоге вашего веб-сайта (например, http://ggexample.com/robots.txt).

Если вы используете подкаталоги, например blog.ggexample.com или forum.ggexample.com, каждый подкаталог также должен содержать файл robots.txt.

Поисковые роботы выполняют простое сопоставление текста с тем, что есть в файле robots. txt, и URL-адресами на вашем сайте. Если директива в вашем файле robots.txt совпадает с URL-адресом на вашем сайте, сканер будет подчиняться установленному вами правилу.

Нужен ли мне файл robots.txt?

Если файл robots.txt отсутствует, сканеры поисковых систем предполагают, что они могут просканировать и проиндексировать любую страницу, которую они найдут на вашем сайте. Если вы хотите, чтобы они это делали, вам не нужно создавать файл robots.txt.

Но если есть страницы или каталоги, которые вы не хотите индексировать, вам нужно создать файл robots.txt. Такие страницы включают в себя то, о чем мы говорили ранее. Это частные, конфиденциальные, проприетарные и административные страницы. Однако это может также включать такие вещи, как страницы «спасибо» или страницы с дублирующимся контентом.

Например, версии для печати или страницы тестирования A/B.

Как создать файл robots.txt

Файл robots.txt создается так же, как и любой текстовый файл. Откройте ваш любимый текстовый редактор и сохраните документ как robots.txt. Затем вы можете загрузить файл в корневой каталог вашего сайта с помощью FTP или файлового менеджера cPanel.

На что обратить внимание:

  • Имя файла должно быть robots.txt — все строчные. Если какая-либо часть имени написана с большой буквы, поисковые роботы ее не прочитают.
  • Записи в файле robots.text также чувствительны к регистру. Например, /Directory/ — это не то же самое, что /directory/.
  • Используйте текстовый редактор для создания или редактирования файла. Текстовые процессоры могут добавлять символы или форматирование, которые препятствуют чтению файла поисковыми роботами.
  • В зависимости от того, как был создан ваш сайт, файл robots.txt может уже находиться в корневом каталоге. Прежде чем создавать и загружать новый файл robots.txt, проверьте его, чтобы случайно не перезаписать существующие директивы.

Некоторые примеры того, что нужно включить

Файл robots. txt содержит ряд переменных и подстановочных знаков, поэтому существует множество возможных комбинаций. Мы рассмотрим некоторые общие и полезные записи и покажем вам, как их добавить.

Прежде чем мы это сделаем, давайте начнем с обзора доступных директив: «User-agent», «Disallow», «Allow», «Crawl-delay» и «Sitemap». Большинство ваших записей robots.txt будут использовать «User-agent» и «Disallow».

Агент пользователя

Функция агента пользователя нацелена на конкретный поисковый робот, которому мы хотим дать инструкции. Обычно это Googlebot, Bingbot, Slurp (Yahoo), DuckDuckBot, Baiduspider (китайская поисковая система) и YandexBot (российская поисковая система). Существует длинный список пользовательских агентов, которые вы можете включить.

Disallow

Использование Disallow, вероятно, является одним из наиболее распространенных атрибутов. Это основная команда, которую мы будем использовать, чтобы указать пользовательскому агенту не сканировать URL-адрес.

Разрешить

Разрешить — еще один распространенный элемент файла robots.txt. И он используется только роботом Googlebot. Он сообщает роботу Googlebot, что доступ к страницам или вложенным папкам разрешен, даже если родительская страница или вложенная папка запрещены.

Crawl-delay

Функция Crawl-delay определяет, сколько секунд сканер должен ждать между страницами. Многие поисковые роботы игнорируют эту директиву, в первую очередь робот Googlebot, но скорость сканирования для робота Googlebot можно установить в консоли поиска Google.

Карта сайта

Возможно, одним из наиболее важных аспектов файла robots.txt является «Карта сайта». Это используется для указания местоположения XML-карт сайта для вашего сайта, что значительно улучшает индексацию контента в поисковых системах.

Если вы хотите, чтобы вас нашли на таких сайтах, как Google, Bing или Yahoo, наличие карты сайта практически обязательно.

Итак, файл robots.txt начинается с:

 User-agent: * 

Звездочка (*) — это подстановочный знак, означающий «все». Все, что будет дальше, будет применяться ко всем поисковым роботам.

 Агент пользователя: *
Disallow: /private/ 

Теперь мы добавили «Disallow» для каталога /private/. Таким образом, robots.txt говорит каждому сканеру не сканировать /private/ в домене.

Если бы мы хотели запретить только определенный сканер, мы бы использовали имя сканера в строке User-agent:

 User-agent: Bingbot
Disallow: /private/ 

Это указывает Bing не сканировать ничего в каталоге /private/.

Косая черта в строке «Запретить» сообщит Bing (или любому пользовательскому агенту, который вы укажете), что ему не разрешено сканировать что-либо в домене:

 Агент пользователя: Bingbot
Disallow: / 

Вы также можете указать сканерам не сканировать определенный файл.

 Агент пользователя: *
Disallow: /private.html 

Еще один подстановочный знак — $, обозначающий конец URL-адреса. Таким образом, в следующем примере любой URL-адрес, оканчивающийся на . pdf, будет заблокирован.

 Агент пользователя: *
Disallow: /*.pdf$ 

Это предотвратит сканирование всеми поисковыми роботами всех PDF-файлов. Например, https://ggexample.com/whitepapers/july.pdf

Несколько директив в файле robots.txt

До сих пор мы создавали простые двухстрочные файлы robots.txt, но вы можете иметь столько записей в файле, сколько захотите.

Например, если мы хотим разрешить Google сканировать все, но не разрешить Bing, Baidu или Yandex, мы должны использовать:

 User-agent: Googlebot
Запретить:
Агент пользователя: Bingbot
Запретить: /
Агент пользователя: Baiduspider
Запретить: /
User-agent: ЯндексБот
Disallow: / 

Обратите внимание, что мы использовали новую строку User-agent для каждой директивы. В строке User-agent может быть указан только один поисковый робот.

Но – один пользовательский агент может иметь несколько директив Disallow:

 пользовательский агент: Baiduspider
Запретить: /самолеты/
Запретить: /поезда/
Disallow: /automobiles/ 

Каждый запрещенный URL-адрес должен находиться в отдельной строке.

Вы можете протестировать файл robots.txt в Инструментах Google для веб-мастеров.

Использование robots.txt не является гарантией

Добавление директивы Disallow в robots.txt не является гарантией того, что файл или URL-адрес не будут проиндексированы поисковой системой. В то время как «хорошие» сканеры поисковых систем будут учитывать ваши настройки robots.txt, некоторые этого не сделают.

То, что они не сканируют что-то в вашем домене, не означает, что это не будет проиндексировано.

Это потому, что поисковые роботы переходят по ссылкам. Поэтому, если вы запретите /whitepapers/july.pdf, сканеры не будут его сканировать. Но если кто-то еще ссылается на /whitepapers/july.pdf со своего веб-сайта, поисковые роботы могут найти файл и проиндексировать его.

robots.txt и WordPress

По умолчанию WordPress создает «виртуальный» файл robots.txt. Это простая директива, которая блокирует попытки сканеров просканировать вашу панель администратора.

 Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php 

Файл /wp-admin/admin-ajax.php разрешен, поскольку некоторые темы WordPress используют AJAX для добавления контента на страницы или сообщения.

Если вы хотите настроить файл robots.txt WordPress, создайте robots.txt, как описано выше, и загрузите его в корень вашего веб-сайта.

Обратите внимание, что ваш загруженный файл robots.txt остановит создание виртуального файла robots.txt WordPress по умолчанию. На сайте может быть только один файл robots.txt. Поэтому, если вам нужна эта директива AJAX Allow для вашей темы, вы должны добавить приведенные выше строки в свой файл robots.txt.

Некоторые SEO-плагины WordPress генерируют для вас файл robots.txt.

Генераторы файлов robots.txt

Я собираюсь перечислить здесь несколько генераторов файлов robots.txt, но на самом деле, большинство из них просто запрещает. Теперь, когда вы знаете, как сделать это самостоятельно, их полезность сомнительна.