Содержание

Настройка robots.txt для Joomla 3

Посмотрите видео по настройке и создайте идеальный файл robots.txt, открыв свой сайт на Joomla 3.x для поисковых роботов и пользователей из поисковой выдачи.

Содержание

  1. Для чего нужен robots.txt?
  2. Стандартный robots.txt в Joomla
  3. Правильный robots.txt для Joomla

Для чего нужен robots.txt?

Одной из важных задач в SEO-оптимизации является открытие своего сайта для роботов поисковых систем.

Представьте: вы решили продать квартиру, но всеми силами не пускаете туда покупателей, а только позволяете посмотреть в замочную скважину. Что они там увидят? Как смогут оценить подходит им ваша квартира или нет?

Поэтому в первую очередь для того, чтобы поисковые роботы видели наш сайт так же, как видят его пользователи нужно, обеспечить им доступ к сканированию с помощью файла robots.txt.

Важно знать:

Файл robots.
txt позволяет управлять сканированием страниц сайта поисковыми роботами.

К сожалению, по умолчанию, если мы ничего не делаем с файлом robots.txt для сайта на Joomla, то мы разрешаем поисковым роботам именно подглядывать в щелку и, как следствие, получаем посредственный результат.

Работы на несколько минут, но многие терпят годами и ругаются на плохие результаты продвижения сайта на Joomla.

Стандартный robots.txt в Joomla

Мало кто знает, что в стандартном файле robots.txt в Joomla до версии 3.3 поисковые роботы не видят изображений, не понимают оформления сайта и могут не видеть части контента, а иногда и вовсе не смогут переходить по сквозным ссылкам из меню.

Начиная с Joomla 3.3 разработчики изменили файл robots.txt и это похвально, но

  1. при обновлении Джумла с предыдущей версии данный файл не перезаписывается автоматически
  2. всё равно требуется его небольшая доработка

Правильный robots.

txt для Joomla

Посмотрите видео по настройке и создайте идеальный файл robots.txt, открыв свой сайт для поисковых роботов и пользователей из поисковой выдачи:

Это была первая фишка в SEO-оптимизации Joomla. С помощью файла robots.txt также можно успешно удалять дубли страниц, которые не любят поисковые системы, но это отдельная тема, требующая погружения.

Полезная информация:

Комментарии для сайта Cackle

для чего нужен, как составить

 

Вступление

Какими бы ни были причины создания своего сайта, самим фактом размещения его в Интернет, вы включаетесь в соревнование по продвижению сайта, где основными арбитрами становятся поисковые системы со своими вездесущими поисковыми роботами (ботами). Даже если вы специально не занимаетесь продвижением сайта, поисковики, рано или поздно начнут посещать ваш сайт, сканируя его страницы, файлы и каталоги.

Что такое файл robots.txt

Процесс сканирования поисковиками сайта практически неконтролируемый, но управляемый. Поисковые боты это всего лишь программы, в алгоритмы которых (правда, не всех) были включены обязательный поиск файла robots.txt в каталоге сайта, а при его нахождении его «чтение».

Сразу замечу, что не все поисковые системы обращают внимание на файл robots.txt. Многие боты его игнорируют, но основные поисковики его видят очень хорошо.

Правила написания файла robots.txt

Итак, при начале обхода сайта, поисковик ищет файл robots.txtи просматривает его для получения правил (директив) сканирования.

Примечание: Не путаем директивы сканирования в файле robots.txtи директивы индексирования (показа содержания) задающимися мета тегами robots.    

Файл robots. txt это специальный инструмент, который создан для управления поведением поисковых роботов при сканировании сайта. Синтаксис robots.txt нарочито простой. По расширению это простой текстовой файл, создать его можно в любом текстовом редакторе. Директив, команд которые понимают поисковики, несколько и основные из них две:

  • Disallow– Запрещено;
  • Allow– Разрешено.

Предусмотрено в файле «личное» обращение к поисковикам, при помощи директивы: [User-agent:], а именно:

  • [User-agent:*] – обращение ко всем поисковым ботам;
  • [User-agent:] – обращение к поисковикам Яндекс; 
  • [User-agent:] – обращение к поисковикам Google.

Не буду переписывать, давно написанные правила составления файла robots.txt, дам три ссылки:

  • https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
  • https://support.google.com/webmasters/answer/6062596?hl=ru
  • http://www.robotstxt.org/orig.
    html

, здесь лишь отмечу: Не существует правильного или неправильного файла robots.txt, то есть, нет единого универсального файла, который может использоваться поголовно всеми. Каждый сайт уникален и вы сами должны решать, что показывать поисковикам, а что закрывать от них. Хотя у Joomla есть рекомендации на этот счет.

Рекомендованный файл robots.txt для Joomla 3

Повторюсь, нет единого файла robots.txt работающего для всех сайтов Joomla. Однако есть файл robots.txt рекомендуемый системой Joomla, который назовем файлом по умолчанию. Он лежит в системе под именем: robots.txt.dist и чтобы им воспользоваться достаточно его переименовать в файл robots.txt. В нем 14 директив disallow и общее обращение ко всем ботам.

Не обязательно самому составлять файл robots.txt. можно воспользоваться генераторами файлов robots.txt. например, тут: http://pr-cy.ru/robots/.

Как проверить свой файл robots.txt

Если вы самостоятельно оставили файл robots. txtего нужно и можно проверить в своем личном кабинете на сервисах веб-мастеров Яндекс (https://webmaster.yandex.ru/robots.xml) и Google (https://www.google.com/webmasters/tools/robots-testing-tool)

Альтернатива файла robots.txt на Joomla 3

В этой статье я уже упоминал, о метатегах robots. У них следующий синтаксис: <meta name=»robots» content=»noindex, nofollow»>. Именно так выглядят метатеги robots задающиеся в Joomla.

Эти мета теги также обращаются к поисковым ботам, но уже не запрещают сканировать файлы сайта, а запрещают их индексирование. То есть, поисковик может поместить страницу сайта в свою базу данных, но не может поместить её в страницы выдачи (индекс).

О метатегах и управления ими, планирую написать в следующей статье, здесь отмечу: Директивы файла robots.txt имеют преимущество перед директивами указанными в метатегах robots. То есть, запрет сканирования, более важен, чем запрет индексирования.

©Joomla3-x.ru.

Другие статьи сайта по теме

 

 

Robots txt для joomla

От автора: приветствую Вас дорогой друг. Индексация поисковыми системами — очень важный этап в развитии сайта так как правильные действия на данном шаге обеспечат быстрое попадание страниц в поиск и значительное увеличение посещаемости. Конечно в данной статье мы не сможем рассмотреть абсолютно все нюансы, связанные с индексацией. Но мы поговорим о наиболее важном инструменте robots txt для joomla, который определяет необходимые инструкции для поисковых систем.

Конечно, поисковая система, будь то Yandex или Google — это сложнейший программный продукт и она, я бы сказал достаточно “умная”, в плане индексации сайтов и поиска необходимой информации. Но как Вы знаете, любое программное обеспечение, или же определенный механизм, по сути самостоятельно не работает, всегда требуется участие человека, либо для настройки, либо для управления, либо для задания неких начальных параметров.

И как Вы понимаете, поисковик не исключение, а значит для лучших результатов индексирования и самое главное для обеспечения правильного индексирования, был придуман robots.txt — файл в котором владельцы сайтов могут определить инструкции для индексирования страниц.

Таким образом, robots.txt — это специальный текстовый файл в котором определены инструкции для различных поисковых систем по индексированию страниц сайт. Если сказать проще, в данном файле указано, что нужно индексировать, а что нет. Как правило, вышеуказанный файл располагается в корне интересующего сайта для быстрого доступа роботу поисковика.

При этом обратите внимание, что имя файла регистрозависимое. Содержимое данного файла состоит из так называемых директив, и достаточно простое для понимания. Директива – это инструкция, указание для поисковой системы.

Теперь давайте определимся, что же мы можем “указывать” поисковым системам. В robots.txt определяются страницы, и даже целые каталоги, которые запрещены к индексированию, указывается основное зеркало сайта, интервал времени загрузки данных, путь к файлу SiteMap (карта сайта) и т.

д.

Хотите узнать, что необходимо для создания сайта?

Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

Смотреть видео

Обычно, в комплекте с наиболее популярными CMS поставляется и оговариваемый нами, файл robots.txt, в котором разработчики в качестве примера, определили корректные инструкции, благодаря которым, сайт будет нормально работать. Joomla не исключение и в корне исходников Вы найдете интересующий файл:

# If the Joomla site is installed within a folder # eg www.example.com/joomla/ then the robots.txt file # MUST be moved to the site root # eg www.example.com/robots.txt # AND the joomla folder name MUST be prefixed to all of the # paths. # eg the Disallow rule for the /administrator/ folder MUST # be changed to read # Disallow: /joomla/administrator/ # # For more information about the robots.txt standard, see: # //www.robotstxt.org/orig.html # # For syntax checking, see: # //tool. motoricerca.info/robots-checker.phtml User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

# If the Joomla site is installed within a folder

# eg www.example.com/joomla/ then the robots.txt file

# MUST be moved to the site root

# eg www.example.com/robots.txt

# AND the joomla folder name MUST be prefixed to all of the

# paths.

# eg the Disallow rule for the /administrator/ folder MUST

# be changed to read

# Disallow: /joomla/administrator/

#

# For more information about the robots.txt standard, see:

# //www.robotstxt.org/orig.html

#

# For syntax checking, see:

# //tool.motoricerca.info/robots-checker.phtml

 

User-agent: *

Disallow: /administrator/

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /modules/

Disallow: /plugins/

Disallow: /tmp/

Соответственно давайте поговорим о синтаксисе и используемых директивах. Все текстовое содержимое, следующее после знака # и до конца текущей строки, считается комментарием и восприниматься поисковой системой не будет, таким образом можно указать некоторое пояснение к определенным правилам индексации. Далее первая директива, которая определена в файле robots для joomla — это User-agent. Данный параметр указывает имя робота поисковой системы, для которой будут применены правила индексации, описанные ниже.

В данном примере мы указываем, что следующие правила будут справедливы для абсолютно всех роботов поисковых систем. Если же необходимо задать несколько правил для робота Yandex, в качестве значения директивы User-agent, нужно указать следующее:

Для Google соответственно:

Далее в файле определена директива Disallow, которая указывает, какая папка или страница, по определенному URL, запрещена к индексации. Соответственно запрещать индексировать Вы можете следующие страницы: одинаковые по содержанию (дубли), страницы содержащие личную или конфиденциальную информацию, управляющие или страницы панели администратора, доступ к которым разрешен только определенным пользователям и, наконец абсолютно любые страницы которые в зависимости от логики работы конкретного сайта, не должны быть доступны поисковикам.

К примеру, запрет индексирования каталога administrator выглядит следующим образом:

Disallow: /administrator/

Disallow: /administrator/

Или же запрет индексации всего сайта в целом:

Хотите узнать, что необходимо для создания сайта?

Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

Смотреть видео

В противоположность директиве Disallow, придумана директива Allow, которая указывает какие страницы или каталоги разрешены к индексации.

По сути, мы с Вами только что рассмотрели все директивы, которые использованы в стандартном файле robots txt для джумлы. Но давайте рассмотрим еще несколько.

Директива Crawl-delay – используется для определения интервала времени для закачки данных определенной страницы, то есть задается пауза между скачиванием, при этом она актуальна только для Yandex. Таким образом, указав необходимый тайм-аут, Вы значительно разгрузите используемый сервер, так как скачав определенный ресурс поисковый робот, будет ждать столько секунд, то есть сколько указано в текущей директиве.

Для ускорения индексации так же рекомендуется сгенерировать карту сайта (Site Map), в которой будет приведен список страниц, в виде ссылок. При этом данная карта располагается так же в корне исходников CMS и путь к ней можно определить в файле robots.txt, используя директиву Sitemap, тем самым Вы как бы укажите роботу список доступных страниц сайта, которые подлежат индексации.

Sitemap: путь к карте сайта

Sitemap: путь к карте сайта

Ну и наконец. последняя важная директива которая очень часто используется в файлах robots.txt – это Host, которая используется для поисковой системы Yandex и определяет главное зеркало сайта.

Как Вы уже увидели, значение каждой директивы – это определенный текст и в основном это определенный путь, соответственно для формирования данного значения предусмотрены два управляющих символа, которые я хотел бы рассмотреть.

Символ “*” – указывает абсолютно любую последовательность символов и бывает очень полезным, если необходимо задать некоторое произвольное значение, идущее перед заданным.

В данном примере запрещены к индексации все страницы в адресе которых содержится параметр admin. Символ “$”- используется для отмены добавления к каждому правилу, по умолчанию, выше рассмотренного символа.

В данном примере мы запрещаем к индексации вашсайт./ru/page, но не запрещаем вашсайт./ru/page/one.

На этом данная статья завершена. Всего Вам доброго и удачного кодирования!!!

Хотите узнать, что необходимо для создания сайта?

Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

Смотреть видео

Хотите узнать, что необходимо для создания сайта?

Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

Смотреть

Правильный robots.txt для Joomla

Здравствуйте уважаемые читатели блога Lessons-Joomla.ru. В этой статье поговорим как составить правильный файл robots.txt для Joomla. Он играет важнейшую роль для правильной, быстрой индексации вашего проекта, и если robots. txt составлен не верно, то некоторые страницы вашего сайта вообще могут быть исключены поисковиками, а дублированные и мусорные попадут в индекс, что естественно отрицательно скажется на поисковой выдаче и ваши усилия по оптимизации сайта пойдут прахом.

И так, файл robots.txt, это текстовый файл, который находиться в корне вашего сайта и говорит поисковым роботам как именно индексировать ваш проект. На какие страницы не стоит обращать внимание, а каким уделить особое внимание.

Если в файле robots.txt не правильно определить правила для поисковых роботов, то они проиндексируют много мусорных страниц, и может произойти многократное дублирование информации вашего сайта, то есть одна и та же статья будет доступна по разным ссылкам а это не есть хорошо.

Давайте рассмотрим основные директивы и правила этого файла.

Директивы и правила написания файла robots.txt.

Файл начинается с наиболее важной директивы —User-agent – она содержит название поискового робота. Для всех поисковых роботов — User-agent: *, а для Яндекса добавляем в User-agent название Yandex — User-agent: Yandex.

Следущие это Allow и Disallow. Первая разрешает, а вторая запрещает индексацию поисковым роботам.

Ваш правильный файл robots.txt должен содержать как минимум одну директиву «Disallow» соответственно после каждой записи «User-agent». А вот если вы оставите совсем пустой файл robots.txt, то поисковые машины будут индексировать ваш ресурс полностью, и в индекс попадет много мусорных и дублированных страниц.

Также необходима директива Host – которую понимает только поисковая система Яндекс, она служит, для определения главного зеркала вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим с www и без, что для поисковых систем это является двумя разными сайтами.

Так как директиву Host понимает только Яндекс, то для этого нужно использовать отдельно User-agent: Yandex, а для указания действий к индексации другим поисковым роботам использовать директиву User-agent.

Да и при составлении правильного robots.txt вы должны соблюдать правила написания: (директива):(пробел)(значение).

И последняя важная директива — Sitemap. Она показывает поисковикам где у вас на блоге расположена карта сайта в формате .xml.

Правильный robots.txt для Joomla

Правильный файл robots.txt для Joomla которую использую я на этом сайте, выглядит так:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://путь к вашей карте XML формата

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait. ru
Sitemap: http://путь к вашей карте XML формата

Кстати, если вы хотите просмотреть роботс любой интернет-площадки, то достаточно дописать в командной строке браузера к url /robots.txt, допустим http://lessons-joomla.ru/robots.txt.

Да и необходимо знать, что у поисковых систем Google и Яндекс по мимо основных имеются специальные роботы для индексации новостей, изображений и т.д., так что не забудьте открыть для индексации изображения с вашего сайта. По умолчанию в robots.txt Joomla стоит Disallow: /images/. Удалите эту директиву.

Удачи!

Robots.txt для Joomla — инструкция для SEO

Файл robots.txt предоставляет важную информацию для поисковых роботов, которые сканируют интернет. Перед тем как пройтись по страницам вашего сайта, поисковые роботы проверяют данный файл.

Это позволят им с большей эффективностью сканировать сайт, так как вы помогаете роботам сразу приступать к индексации действительно важной информации на вашем сайте (это при условии, что вы правильно настроили robots. txt).

Но, как директивы в robots.txt, так и инструкция noindex в мета-теге robots являются лишь рекомендацией для роботов, поэтому они не гарантируют что закрытые страницы не будут проиндексированы и не будут добавлены в индекс.

Если вам нужно действительно закрыть часть сайта от индексации, то, например, можно дополнительно воспользоваться закрытие директорий паролем.

Основной синтаксис

User-Agent: робот для которого будут применяться следующие правила (например, «Googlebot»)

Disallow: страницы, к которым вы хотите закрыть доступ (можно указать большой список таких директив с каждой новой строки)

Каждая группа User-Agent / Disallow должны быть разделены пустой строкой. Но, не пустые строки не должны существовать в рамках группы (между User-Agent и последней директивой Disallow).

Символ хэш (#) может быть использован для комментариев в файле robots.txt: для текущей строки всё что после # будет игнорироваться. Данные комментарий может быть использован как для всей строки, так в конце строки после директив.

Каталоги и имена файлов чувствительны к регистру: «catalog», «Catalog» и «CATALOG» – это всё разные директории для поисковых систем.

Host: применяется для указание Яндексу основного зеркала сайта. Поэтому, если вы хотите склеить 2 сайта и делаете постраничный 301 редирект, то для файла robots.txt (на дублирующем сайте) НЕ надо делать редирект, чтобы Яндекс мог видеть данную директиву именно на сайте, который необходимо склеить.

Crawl-delay: можно ограничить скорость обхода вашего сайта, так как если у вашего сайта очень большая посещаемость, то, нагрузка на сервер от различных поисковых роботов может приводить к дополнительным проблемам.

Регулярные выражения: для более гибкой настройки своих директив вы можете использовать 2 символа

  • * (звездочка) – означает любую последовательность символов
  • $ (знак доллара) – обозначает конец строки

Пример:

Disallow: /catalog/ #запрещаем сканировать каталог

«*» — означает любую последовательность символов в файле.

«$» — ограничивает действия «*», представляет конец строки.

«/» — показывает, что закрывают для сканирования.

«/catalog/» — закрывают раздел каталога;

«/catalog» — закрывают все ссылки, которые начинаются с «/catalog».

«#» — используют для комментариев, боты игнорируют текст с этим символом.

Инструкции отделяют друг от друга переносом строки.

Директивы robots.txt

Директивы, которые распознают все краулеры:

User-agent

На первой строчке прописывают правило User-agent — указание того, какой робот должен реагировать на рекомендации. Если запрещающего правила нет, считается, что доступ к файлам открыт.

Для разного типа контента поисковики используют разных ботов:

  • Google: основной поисковый бот называется Googlebot, есть Googlebot News для новостей, отдельно Googlebot Images, Googlebot Video и другие;
  • Яндекс: основной бот называется YandexBot, есть YandexDirect для РСЯ, YandexImages, YandexCalendar, YandexNews, YandexMedia для мультимедиа, YandexMarket для Яндекс. Маркета и другие.

Для отдельных ботов можно указать свою директиву, если есть необходимость в рекомендациях по типу контента.

User-agent: * — правило для всех поисковых роботов;

User-agent: Googlebot — только для основного поискового бота Google;

User-agent: YandexBot — только для основного бота Яндекса;

User-agent: Yandex — для всех ботов Яндекса. Если любой из ботов Яндекса обнаружит эту строку, то другие правила User-agent: * учитывать не будет.

Sitemap

Указывает ссылку на карту сайта — файл со структурой сайта, в котором перечислены страницы для индексации:

User-agent: *
Sitemap: http://site.com/sitemap.xml

Некоторые веб-мастеры не делают карты сайтов, это не обязательное требование, но лучше составить Sitemap — этот файл краулеры воспринимают как структуру страниц, которые не можно, а нужно индексировать.

Disallow

Правило показывает, какую информацию ботам сканировать не нужно.

Если вы еще работаете над сайтом и не хотите, чтобы он появился в незавершенном виде, можно закрыть от сканирования весь сайт:

User-agent: *
Disallow: /

После окончания работы над сайтом не забудьте снять блокировку.

Разрешить всем ботам сканировать весь сайт:

User-agent: *
Disallow:

Для этой цели можно оставить robots.txt пустым.

Чтобы запретить одному боту сканировать, нужно только прописать запрет с упоминанием конкретного бота. Для остальных разрешение не нужно, оно идет по умолчанию:

Пользователь-агент: BadBot 
Disallow: /

Чтобы разрешить одному боту сканировать сайт, нужно прописать разрешение для одного и запрет для остальных:

User-agent: Googlebot
Disallow: 
User-agent: * 
Disallow: /

Запретить ботам сканировать страницу:

User-agent: *
Disallow: /page.html

Запретить сканировать конкретную папку с файлами:

User-agent: *
Disallow: /name/

Запретить сканировать все файлы, которые заканчиваются на «. pdf»:

User-agent: *
Disallow: /*.pdf$

Запретить сканировать раздел http://site.com/about/:

User-agent: *
Disallow: /about/

Запись формата «Disallow: /about» без закрывающего «/» запретит доступ и к разделу http://site.com/about/, к файлу http://site.com/about.php и к другим ссылкам, которые начинаются с «/about».

Если нужно запретить доступ к нескольким разделам или папкам, для каждого нужна отдельная строка с Disallow:

User-agent: *
Disallow: /about
Disallow: /info
Disallow: /album1
Allow

Директива определяет те пути, которые доступны для указанных поисковых ботов. По сути, это Disallow-наоборот — директива, разрешающая сканирование. Для роботов действует правило: что не запрещено, то разрешено, но иногда нужно разрешить доступ к какому-то файлу и закрыть остальную информацию.

Разрешено сканировать все, что начинается с «/catalog», а все остальное запрещено:

User-agent: *
Allow: /catalog 
Disallow: /

Сканировать файл «photo. html» разрешено, а всю остальную информацию в каталоге /album1/ запрещено:

User-agent: *
Allow: /album1/photo.html 
Disallow: /album1/

Заблокировать доступ к каталогам «site.com/catalog1/» и «site.com/catalog2/» но разрешить к «catalog2/subcatalog1/»:

User-agent: * 
Disallow: /catalog1/ 
Disallow: /catalog2/ 
Allow: /catalog2/subcatalog1/

Бывает, что для страницы оказываются справедливыми несколько правил. Тогда робот будет отсортирует список от меньшего к большему по длине префикса URL и будет следовать последнему правилу в списке.

Директивы, которые распознают боты Яндекса:

Clean-param

Некоторые страницы дублируются с разными GET-параметрами или UTM-метками, которые не влияют на содержимое. К примеру, если в каталоге товаров использовали сортировку или разные id.

Чтобы отследить, с какого ресурса делали запрос страницы с книгой book_id=123, используют ref:

«www.site. com/some_dir/get_book. pl?ref=site_1& book_id=123″
«www.site. com/some_dir/get_book.pl?ref=site_2& book_id=123»
«www.site. com/some_dir/get_book.pl?ref=site_3& book_id=123»

Страница с книгой одна и та же, содержимое не меняется. Чтобы бот не сканировал все варианты таких страниц с разными параметрами, используют правило Clean-param:

User-agent: Yandex 
Disallow: 
Clean-param: ref/some_dir/get_book.pl

Робот Яндекса сведет все адреса страницы к одному виду:

«www.example. com/some_dir/get_book.pl? book_id=123»

Для адресов вида:
«www.example2. com/index.php? page=1&sid=2564126ebdec301c607e5df»
«www.example2. com/index.php? page=1&sid=974017dcd170d6c4a5d76ae»

robots.txt будет содержать:

User-agent: Yandex
Disallow:
Clean-param: sid/index.php

Для адресов вида

«www.example1. com/forum/showthread.php? s=681498b9648949605&t=8243»
«www.example1. com/forum/showthread.php? s=1e71c4427317a117a&t=8243»

robots. txt будет содержать:

User-agent: Yandex 
Disallow: 
Clean-param: s/forum/showthread.php

Если переходных параметров несколько:
«www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311»
«www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896»

robots.txt будет содержать:

User-agent: Yandex 
Disallow: 
Clean-param: s&ref/forum*/showthread.php
Host

Правило показывает, какое зеркало учитывать при индексации. URL нужно писать без «http://» и без закрывающего слэша «/».

User-agent: Yandex
Disallow: /about
Host: www.site.com

Сейчас эту директиву уже не используют, если в ваших robots.txt она есть, можно удалять. Вместо нее нужно на всех не главных зеркалах сайта поставить 301 редирект.

Crawl-delay

Раньше частая загрузка страниц нагружала сервер, поэтому для ботов устанавливали Crawl-delay — время ожидания робота в секундах между загрузками. Эту директиву можно не использовать, мощным серверам она не требуется.

Время ожидания — 4 секунды:

User-agent: *
Allow: /album1 
Disallow: /
Crawl-delay: 4
Только латиница

Напомним, что все кириллические ссылки нужно перевести в Punycode с помощью любого конвертера.

Неправильно:

User-agent: Yandex 
Disallow: /каталог

Правильно:

User-agent: Yandex
Disallow: /xn--/-8sbam6aiv3a

Основные примеры использования robots.txt

Запрет на индексацию всего сайта

User-agent: *

Disallow: /

Эту инструкцию важно использовать, когда вы разрабатываете новый сайт и выкладываете доступ к нему, например, через поддомен.

Очень часто разработчики забывают таким образом закрыть от индексации сайт и получаем сразу полную копию сайта в индексе поисковых систем. Если это всё-таки произошло, то надо сделать постраничный 301 редирект на ваш основной домен.

А такая конструкция ПОЗВОЛЯЕТ индексировать весь сайт:

User-agent: *

Disallow:

Запрет на индексацию определённой папки

User-agent: Googlebot

Disallow: /no-index/

Запрет на посещение страницы для определенного робота

User-agent: Googlebot

Disallow: /no-index/this-page.html

Запрет на индексацию файлов определенного типа

User-agent: *

Disallow: /*.pdf$

Разрешить определенному поисковому роботу посещать определенную страницу

User-agent: *

Disallow: /no-bots/block-all-bots-except-rogerbot-page.html

User-agent: Yandex

Allow: /no-bots/block-all-bots-except-Yandex-page.html

Ссылка на Sitemap

User-agent: *

Disallow:

Sitemap: http://www.site.com/none-standard-location/sitemap.xml

Нюансы с использованием данной директивы: если у вас на сайте постоянно добавляется уникальный контент, то

  • лучше НЕ добавлять в robots.txt ссылку на вашу карту сайта,
  • саму карту сайта сделать с НЕСТАНДАРТНЫМ названием sitemap. xml (например, my-new-sitemap.xml и после этого добавить эту ссылку через «вебмастерсы» поисковых систем),

так как, очень много недобросовестных вебмастеров парсят с чужих сайтов контент и используют для своих проектов.

Что лучше использовать robots.txt или noindex?

Если вы хотите, чтобы страница не попала в индекс, то лучше использовать noindex в мета-теге robots. Для этого на странице в секции <head> необходимо добавить следующий метатег:

<meta name=”robots” content=”noindex, follow”>.

Это позволит вам

  • убрать из индекса страницу при следующем посещение поискового робота (и не надо будет делать в ручном режиме удаление данной страницы, через вебмастерс)
  • позволит вам передать ссылочный вес страницы

Через robots.txt лучше всего закрывать от индексации:

  • админку сайта
  • результаты поиска по сайту
  • страницы регистрации/авторизации/восстановление пароля

Как и чем проверить файл robots. txt?

После того, как вы окончательно сформировали файл robots.txt необходимо проверить его на ошибки. Для этого можно воспользоваться инструментами проверки от поисковых систем:

Google Вебмастерс: войти в аккаунт с подтверждённым в нём текущим сайтом, перейти на Сканирование -> Инструмент проверки файла robots.txt.

В данном инструменте вы можете:

  • сразу увидеть все свои ошибки и возможные проблемы,
  • прямо в этом инструменте провести все правки и сразу проверить на ошибки, чтобы потом уже перенести готовый файл себе на сайт,
  • проверить правильно ли вы закрыли все не нужные для индексации страницы и открыты ли все нужные страницы.

Яндекс Вебмастер:

Этот инструмент почти аналогичный предыдущему с тем небольшим отличием, что:

  • тут можно не авторизоваться и нет необходимости в подтверждении прав на сайт, а поэтому, можно сразу приступать к проверке вашего файла robots. txt,
  • для проверки сразу можно задать список страниц, а не вбивать их по одному,
  • точно убедиться, что Яндекс правильно понял ваши инструкции.

Для проверки файла robots.txt на ошибки у поисковиков есть собственные инструменты:

Инструмент проверки файла robots.txt от Google позволит проверить, как бот видит конкретный URL. В поле нужно ввести проверяемый URL, а инструмент покажет, доступна ли ссылка.

Инструмент проверки от Яндекса покажет, правильно ли заполнен файл. Нужно указать сайт, для которого создан robots.txt, и перенести его содержимое в поле.

В заключение

Создание и настройка robots.txt является в списке первых пунктов по внутренней оптимизации сайта и началом поискового продвижения.

Важно его настроить грамотно, чтобы нужные страницы и разделы были доступны к индексации поисковых систем. А не нужные были закрыты.

Примеры для Joomla 3

Изначально robots. txt имеет такой вид

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

User-agent — это имя робота, для которого предназначена инструкция. По умолчанию в Joomla стоит * (звёздочка) — это означает, что инструкция предназначена для абсолютно всех поисковых роботов.

Disallow — запрещает индексировать содержимое указанной папки или URL.
Пример:
Disallow: /images/ — запрет индексации всего содержимого папки images
Disallow: /index.php* — запрет индексации всех URL адресов, начинающихся с index.php

Allow — наоборот, разрешает индексацию папки или URL.
Пример:
Allow: /index. php?option=com_xmap&sitemap=1&view=xml — разрешает индексацию карты сайта, созданной при помощи Xmap.

Такая директива необходима если у вас стоит запрет на индексацию адресов с index.php, а чтобы робот мог получить доступ к карте сайта, нужно разрешить этот конкретный URL.

Host — указание основного зеркала сайта (с www или без www)
Пример:
Host: www.site.ru — основной адрес этого сайта с www

Sitemap — указание на адрес по которму находиться карта сайта
Пример:
Sitemap: http://www.site.ru/index.php?option=com_xmap&sitemap=1&view=xml
По этому адресу находится карта сайта в формате xml

Clean-param — специальная директива, которая запрещает роботам Яндекса индексировать URL адреса с динамическими параметрами.
Динамические параметры, это различные переменные и цифры, которые подставляются к адресу, например при поиске по сайту.
Пример таких параметров:
http://www.site.ru/poisk?searchword=robots.txt&ordering=newest&searchphrase=all&limit=20
И чтобы Яндекс не учитывал такие служебные страницы, в robots. txt задаётся директива Clean-param.
Всё тот же пример с поиском по сайту:
Clean-param: searchword / — директива запрещает индексировать все URL с параметром ?searchword

Crawl-delay — директива пока знакомая только Яндексу. Она указывает с каким интервалом сканировать страницы, интервал задаётся в секундах.
Может быть полезно если у вас много страниц и достаточно высокая нагрузка на сервер, поскольку каждое обращение робота к странице вашего сайта — это нагрузка на сервер. Робот может сканировать по несколько страниц в секунду и тем самым загрузить сервер.
Пример:
Crawl-delay: 5 — интервал для загрузки страницы — 5 секунд.

Пример для Joomla 3 с использованием компонента генератора карты сайта Xmap

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index. php*
Disallow: /index2.php*
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*format=
Disallow: /*print=
Disallow: /*user/
Disallow: /index2.php
Disallow: /index.php
Disallow: /*%
Disallow: /*&
Disallow: /*tag
Disallow: /*=atom #RSS
Disallow: /*=rss #RSS
Allow: /images/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Host: site.ru
Sitemap: http://site.ru/index.php?option=com_xmap&sitemap=1&view=xml
Clean-param: searchword /
Crawl-delay: 5 

Пример с использованием sitemap.xml

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index. php*
Disallow: /index2.php*
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*format=
Disallow: /*print=
Disallow: /*user/
Disallow: /index2.php
Disallow: /index.php
Disallow: /*%
Disallow: /*?
Disallow: /*&
Disallow: /*tag
Disallow: /*=atom #RSS
Disallow: /*=rss #RSS
Allow: /images/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Host:  sitemap.ru
Sitemap: http://sitemap.ru/sitemap.xml
Clean-param: searchword /
Crawl-delay: 5

Пример с использованием генератора карты сайта JMap

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index. php*
Disallow: /index2.php*
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*format=
Disallow: /*print=
Disallow: /*user/
Disallow: /index2.php
Disallow: /index.php
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /*tag
Disallow: /*=atom #RSS
Disallow: /*=rss #RSS
Allow: /*.js*
Allow: /*.css*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*
Allow: /images/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /index.php?option=com_jmap&view=sitemap&format=xml
Host: www.site.ru
Sitemap: http://www.site.ru/index.php?option=com_jmap&view=sitemap&format=xml
Clean-param: searchword /
Crawl-delay: 5

Пример с использованием компонента K2

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index. php*
Disallow: /index2.php*
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*format=
Disallow: /*print=
Disallow: /*user/
Disallow: /*?start=*
Disallow: /index2.php
Disallow: /index.php
Disallow: /*%
Disallow: /*&
Disallow: /*tag
Disallow: /*=atom #RSS
Disallow: /*=rss #RSS
Disallow: /component/k2/item/*
Disallow: /component/k2/itemlist/*
Allow: /images/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Host: site.ru
Sitemap: http://site.ru/index.php?option=com_xmap&sitemap=1&view=xml

Пример для компонента интернет-магазина Joomshopping

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index. php*
Disallow: /index2.php*
Disallow: */cart/*
Disallow: /wishlist.html
Disallow: /log-in.html
Disallow: /my-cart.html
Disallow: /my-wishlist.html
Disallow: /my-cart/view.html
Disallow: /shop/cart/*
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*format=
Disallow: /*print=
Disallow: /*user/
Disallow: /index2.php
Disallow: /index.php
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /*tag
Disallow: /*=atom #RSS
Disallow: /*=rss #RSS
Allow: /*.js*
Allow: /*.css*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*
Allow: /images/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /components/com_jshopping/files/img_categories/
Allow: /components/com_jshopping/files/img_products/
Allow: /index.php?option=com_xmap&view=xml
Host: https://site.ru
Sitemap: https://site.ru/index.php?option=com_xmap&view=xml
Clean-param: searchword /
Crawl-delay: 5

Пример — закрыть от индексации весь сайт

User-agent: *
Disallow: /

Важно!!! Все примеры указаны для включенной функции SEF в настройках сайта Joomla и они не являются абсолютом.

Правильный robots.txt для Joomla с SEF и VirtueMart, Sh504

Joomla — довольно популярный движок среди вебмастеров, т.к. она бесплатна и обладает большими возможностями, множеством готовых решений. Разберем правильный robots.txt для Joomla.

Не буду приводить основные директивы и их описание, т.к. ознакомиться с ними можно в моей статье: настройка robots.txt .

Тот роботс, что идет в комплекте с движком является неплохим, т.к. в нем закрыты основные служебные директории, но много мусора остается открытым. А вот картинки в стандартном файле — закрыты, что не совсем хорошо.

Как выглядит стандартный robots для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Теперь разберем правильные файлы robots. txt для Джумлы с различными дополнениями. Не забываем, что для Яндекса желательно дописать отдельный «User-agent: Yandex» и продублировать в него все директивы.

Robots.txt для Joomla 2.5 и 3 с родным SEF

Закрываем стандартные служебные папки и убираем дубли с сайта и прочий мусор.

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index.php*
Disallow: /index2.php*
Disallow: /*com_mailto #форма отправки писем
Disallow: /*pop= #всплывающие окна
Disallow: /*lang=ru #языковую версию
Disallow: /*format= #форматы
Disallow: /*print= #ссылка вывода на печать
Disallow: /*task=vote #голосования
Disallow: /*=watermark #водяные знаки
Disallow: /*=download #Ссылки на скачивание
Disallow: /*user/ #пользователи
Disallow: /404 #закрываем 404 ошибку
Disallow: /index. php? #урлы с параметрами
Disallow: /*? #урлы с вопросами
Disallow: /*% #урлы с процентами
Disallow: /*& #урлы со знаком &
Disallow: /index2.php #дубли
Disallow: /index.php #дубли
Disallow: /*tag #облако тегов
Disallow: /*.pdf #ПДФ файлы, на усмотрение
Disallow: /*.swf #Flash, на усмотрению
Disallow: /*=atom #RSS
Disallow: /*=rss #RSS
Allow: /images/ #открываем картинки
Allow: /index.php?option=com_xmap&sitemap=1&view=xml #открываем карту сайта
Host: ваш_домен.ru
Sitemap: http://ваш_адрес_карты_сайта
Clean-param: searchword /
Crawl-delay: 5

По поводу карты сайта можете ознакомиться с моей статьей: Зачем нужна карта сайта или как создать Sitemap.xml.
Не забываем, что в директиве «host» адрес сайта указывается без http:// и указывается главное зеркало сайта (если есть дубли с WWW и без — то следует предварительно склеить их 301 редиректом)

Robots.txt для Джумла + 

VirtueMart + Sh504
User-agent: *
Allow: /sitemap-xml. html?sitemap=1        #доступ к карте сайте
Allow: /components/com_virtuemart/shop_image/category      #доступ к картинкам категорий
Allow: /components/com_virtuemart/shop_image/product        #доступ к картинкам продуктов
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword=           #поиск по ключам
Disallow: /*pop=0               #проблема sh504
Disallow: /*product-search    #поиск
Disallow: /*flypage=            #товары из результатов поиска
Disallow: /*cart                   #корзина
Disallow: /*feed                   #Также запрещается RSS и atom
Disallow: /404                 #404 ошибка
Disallow: /*?                       #урлы содержащие ?
Disallow: /*%                     #урлы содержащие %
Crawl-delay: 5                    #таймаут в 5 секунды
Host: ваш_домен. ru
Sitemap: http://ваш_адрес_карты_сайта

Данные роботсы служат скорее для каркаса, который нужно допилить под свой сайт, т.к. у каждого проекта свои модули, которые могут плодить дубли страниц.

Когда будете вносить правки — всегда проверяйте их на корректность в Яндексе, чтобы избежать проблем.

Понравился пост? Сделай репост и подпишись!

Правильная настройка Robots.txt для Joomla сайта

Правильная настройка Robots.txt для Joomla сайта имеет огромную важность для сео-продвижения ресурса. Любая ошибка может привести к выпадению страниц из индекса Яндекс и Гугл, а это приведет к снижению посещаемости. Ведь именно этот файл отвечает, за то, как будут видеть сайт поисковики.

Например, если использовать стандартный файл Robots.txt в Joomla, то придется забыть об индексации изображений, размещенных на нем. Кроме того, поисковый бот не сможет понять оформления сайта, будет утеряна определенная часть контента, переход робота по ссылкам меню будет затруднен. Оригинальное оформление дополнительных модулей выполняется, чтобы сделать сайт более удобным и красочным для пользователей, а стандартный файл robots.txt не даст это оценить поисковому роботу.

Разработчики Joomla знают об этой проблеме, и в версиях от 3.3, файл robots.txt получил значительные доработки, но, при апгрейде CMS обновление файла предыдущей версии не происходит автоматически — файл подгружается в корень сайта с расширением .txt.dist, которое нужно редактировать. К тому же, нужно все равно внести изменения, которые нужны этому конкретному сайту.

Внесение необходимых изменений в Robots.txt

Доработка от разработчиков новой версии Robots.txt для Джумла заключается в удалении трех запрещающих директив с папок изображений, фона и медиа. Для получения поисковым ботом полной картины сайта, со всеми оригинальными фишками, этого не достаточно. Чтобы понять это, можно в Google Search Console сравнить, как видит сайт пользователь и робот.

При проверке будет видно, что видео, фон отдельных модулей (с версии 2.5 они могут иметь собственное оформление) роботу недоступны, так же не отображается разметка сайта. А анализ сайта покажет, что поисковый бот не получил доступа к папке плагинов, компонентов и фонов шаблона (tmp).

Чтобы исправить это, достаточно удалить соответствующие директивы или использовать разрешающую директиву, с указанным путем для нужного компонента. Ведь удаление откроет путь ко всем плагинам, а это допустимо не всегда. Иногда, например, плагины устанавливаются для сокрытия исходящих ссылок и если показать этот плагин поисковику, ему это не понравится.

Также, нужно удалить запрет на папку модулей, ведь именно туда устанавливаются модули, обладающие собственным фоном и оформлением, которые поисковый робот, в противном случае, не увидит.

То же самое относится к папке компонентов, для получения роботом скриптов, файлов стилей и изображений по этому пути.

Пример правильного Robots.

txt для Joomla:

robots.txt код:

  1. User-agent: *

  2. Disallow: /administrator/

  3. Disallow: /bin/

  4. Disallow: /cache/

  5. Disallow: /cli/

  6. Disallow: /components/

  7. Disallow: /includes/

  8. Disallow: /installation/

  9. Disallow: /language/

  10. Disallow: /layouts/

  11. Disallow: /libraries/

  12. Disallow: /logs/

  13. Disallow: /media/

  14. Disallow: /modules/

  15. Disallow: /plugins/

  16. Disallow: /templates/

  17. Disallow: /tmp/

  18. Allow: /media/*.css

  19. Allow: /media/*.js

  20. Allow: /media/*.png

  21. Allow: /media/*.woff

  22. Allow: /media/*.woff2

  23. Allow: /media/*.ttf

  24. Allow: /media/*.svg

  25. Allow: /modules/*.css

  26. Allow: /modules/*.js

  27. Allow: /components/*.css

  28. Allow: /components/*. js

  29. Allow: /components/*.png

  30. Allow: /plugins/*.css

  31. Allow: /plugins/*.js

  32. Allow: /plugins/*.png

  33. Allow: /templates/*.css

  34. Allow: /templates/*.js

  35. Allow: /templates/*.woff

  36. Allow: /templates/*.woff2

  37. Allow: /templates/*.eot

  38. Allow: /templates/*.ttf

  39. Allow: /templates/*.otf

  40. Allow: /templates/*.svg

  41. Allow: /templates/*.png

  42. Allow: /templates/*.jpg

  43. Allow: /templates/*.gif

  44. Host: Домен_Сайта

Кроме этого, считается, что микроразметка интегрирована в Джумлу, но на самом деле, большинство пользователей используют коммерческие шаблоны, где шаблоны материалов переписаны и значительно отличаются от стандартных и путь к ним в Robots.txt нужно прописать вручную.

Правильная настройка Robots.txt для Joomla сайта совсем простая, занимает так мало времени, тем не менее, есть ресурсы, где эта работа не проводится годами, теряется посещаемость, увеличивается бюджет на сео-продвижение, а чтобы избежать всего этого, довольно выполнить эти простые действия!


Опубликовано: 12-01-2016

SEO для Joomla | Конфигурация метатега robots.

txt и robots

Метатег роботов и файл robots.txt — это два разных и независимых механизма для передачи информации роботам поисковых систем. Они, в частности, позволяют вам указать, какие части вашего сайта должны индексироваться поисковыми системами, а какие нет. Оба они очень эффективны, но их следует использовать осторожно, так как небольшие ошибки могут иметь серьезные последствия!

Robots.txt используется для блокировки системных папок, таких как папка / plugins , которая по умолчанию поставляется с установкой Joomla.Метатег robots обычно используется более конкретно для блокировки определенных страниц. Например, Google не любит ваши внутренние поисковые страницы в индексе Google (см. Www.seroundtable.com/google-block-search-results-pages-24279.html), и вы должны использовать метатег robots, чтобы заблокировать их. Итак, вкратце: robots.txt сообщает Google: не заходите сюда, а метатег Robots сообщает Google: не индексируйте меня. Это 2 действительно разные вещи!

Оба решения не заменяют друг друга, оба имеют свое конкретное назначение.Не используйте их одновременно! Я подробно рассмотрю оба решения.

Robots.txt

Конфигурация файла robots.txt происходит вне администратора Joomla, вы просто открываете и редактируете фактический файл. Файл robots.txt — это файл, который в основном содержит информацию о том, какую часть сайта следует сделать общедоступной. Он предназначен специально для ботов поисковых систем, которые сканируют веб-сайты, чтобы определить, какую страницу следует включить в индекс.По умолчанию движкам разрешено сканировать все, поэтому, если необходимо заблокировать части сайта, вам нужно указать их специально.

Обратите внимание, что блокировка URL в robots.txt не мешает Google проиндексировать страницу. Он просто перестанет проверять страницу. Просто проверьте этот результат для программы SEO Raven tools, которая на самом деле занимает высокие позиции в рейтинге:

Итак, если вы хотите быть абсолютно уверены, что вас не проиндексируют, вам следует использовать метатег robots, см. Ниже на этой странице.

Вернемся к файлу robots.txt: Joomla поставляется со стандартным файлом robots.txt, который должен нормально работать для большинства сайтов, за исключением старых сайтов: в старых версиях Joomla блокировалась папка / images . Это предотвращает индексацию изображений для вашего сайта, чего, конечно же, не должно быть. Поэтому закомментируйте эту строку или удалите ее полностью:

  User-agent: *  
Disallow: / administrator /
Disallow: / cache /
Disallow: / cli /
Disallow: / components /
# Disallow: / images / < -------- Закомментировано с помощью # или удалите их
Disallow: / includes /
Disallow: / installation /
Disallow: / language /
Disallow: / libraries /
Disallow : / logs /
# Disallow: / media / <-------- Закомментировано с помощью # или удалите их
Disallow: / modules /
Disallow: / plugins /
# Disallow : / templates / <-------- Закомментировано с помощью # или удалите их
Disallow: / tmp /

Примечание: Начиная с Joomla 3. 3 эта проблема исправлена, и эти строки больше не блокируются. Но если ваш сайт был запущен в более старой версии, старая версия robots.txt все еще может быть там!

Как видите, файл в основном используется для блокировки системных папок. Кроме того, вы также можете использовать файл для предотвращения индексации определенных страниц, например страниц входа или 404, но это лучше сделать с помощью метатега robots.

Вы также можете проверить, работает ли ваш файл robots.txt, используя раздел заблокированного URL-адреса в Инструментах Google для веб-мастеров.

Расширенная настройка с помощью robots.txt

Опытные пользователи могут использовать файл robots.txt, чтобы заблокировать индексирование страниц с помощью сопоставления с образцом. Вы можете, например, заблокировать любую страницу, содержащую ‘?’ для предотвращения дублирования контента с URL-адресов, отличных от SEF:

  User-agent: *  
Disallow: / *? *

Не нужно говорить, что с этим нужно быть осторожным. Другой пример можно найти на сайте searchchengineland.com.

Разрешить CSS и Javascript?

Замечание, которое Google недавно сделал относительно мобильных сайтов (см. Это видео с выступлением Мэтта Каттса из Google), выглядит следующим образом:

Не блокировать CSS, Javascript и другие файлы ресурсов по умолчанию.Это мешает роботу Google правильно отображать страницу и понимать, что она оптимизирована для мобильных устройств.

Вот почему папки / templates и / media больше не блокируются для установки Joomla с июля 2014 года. Убедитесь, что все ваши файлы ресурсов не заблокированы. Если вы используете такой плагин, как JCH-Optimize, который объединяет несколько файлов CSS и Javascript в отдельные файлы, вам может потребоваться указать для этого правило Allow , например:

 Разрешить: / plugins / system / jch_optimize / assets2 / 
Разрешить: / plugins / system / jch_optimize / assets /

Тестовые роботы.

txt в Инструментах Google для веб-мастеров

В 2014 году Google стал более строгим в отношении файла robots.txt. Он более требователен к заблокированным ресурсам (CSS и JS), но он также представил некоторые инструменты в вашей учетной записи веб-мастера, которые помогут вам устранять неполадки. Прежде всего, это касается robots.txt Tester , который можно найти в параметрах Crawl :

В этом случае ошибок и предупреждений нет, но если они есть, вы получите уведомление.Имейте в виду, что это всего лишь базовая проверка правильности введенных вами строк, она не проверяет, являются ли заблокированные ресурсы важными для отображения сайта.

Вот где пригодится инструмент Fetch as Google . Я действительно советую вам проверить свой сайт с помощью этого инструмента, вы можете найти потрясающие результаты! Этот инструмент пытается проверить ваш сайт глазами роботов Google, сканирующих ваш сайт. Теперь посмотрим, как наш сайт выглядит с помощью этого инструмента.

Результатом может быть зеленая галочка, но если результат частичный , вы еще не закончили !!!! Установите флажок, и откроется новая страница.Теперь ваш сайт может выглядеть так:

Это может быть дисплей, который вы получаете, когда Google обнаруживает блок для вашей папки / шаблона , где находятся все ваши CSS и JS. Какие ресурсы заблокированы, легко найти, сообщает Google прямо здесь. Подробная статья в блоге по этой теме находится прямо здесь. Убедитесь, что вы проверили это, так как это может действительно повлиять на поисковый рейтинг из-за того, что Google не сможет правильно отобразить ваш сайт. Конкретно. он не может сказать, отзывчивый ваш сайт или нет!

Укажите на карту вашего сайта

Другое: роботы.txt можно использовать для указания на ваши файлы xml-sitemap, особенно если они не расположены в корне вашего веб-сайта, что часто бывает, если ваша карта сайта создается расширениями Joomla, такими как PWT Sitemap, OSmap, Jsitemap и т. д. Что вам следует сделать, так это найти расположение карты сайта в конфигурации расширения, а затем просто указать на него в нижней части файла robots.txt, например:

 Карта сайта: index.php? Option = com_osmap & view = xml & tmpl = component & id = 1 

Обновления Joomla и изменения в robots.txt

Время от времени проект Joomla выпускает обновления для файла robots.txt, например, больше не блокирует определенные папки. Если они это сделают, они не будут просто распространять новый файл robots.txt, потому что он перезапишет любые настройки, которые вы сделали для себя. Вместо этого они распространяют файл с названием robots.txt.dist . Если вы никогда не вносили никаких изменений, вы можете просто удалить существующий файл robots.txt и переименовать robots.txt.dist в robots.txt.

Если вы все же настраивали его, просто проверьте, что изменилось, и скопируйте это изменение в свой настроенный файл.Обычно вы будете получать уведомления о подобных изменениях в сообщениях после установки на панели инструментов Joomla. Кстати, такая же процедура применима и для изменения .htaccess.

Метатег роботов

Метатег robots — лучший способ заблокировать индексирование контента, но вы можете использовать его только для URL-адресов, а не для системных папок. Это очень эффективный метод, чтобы убрать информацию из индекса Google. В Joomla вы можете указать тег в нескольких местах, в основном параллельно с другими настройками SEO, такими как метаописания.На глобальном уровне большинству сайтов следует оставить значение по умолчанию, установленное на экране Global Configuration в разделе Metadata Settings . Как видите, можно установить 4 комбинации настроек:

Если вы не хотите скрыть свой сайт от поисковых систем (полезно для разработки), оставьте значение по умолчанию Index, Follow . Для определенных страниц вы можете переопределить это либо из статьи, либо из пункта меню. Например: результаты страницы поиска не должны индексироваться, но вы хотите, чтобы по ссылкам следовали: установите для тега значение Без индекса, перейдите по . Вы можете найти больше информации об этом в электронной книге.

Когда вы используете тег, вы фактически создаете следующий код в своем HTML, чтобы вы могли легко проверить правильность вашей конфигурации:

  

Одно предупреждение: , если вы используете Noindex, Nofollow , чтобы скрыть свои сайты разработки, обязательно измените это, когда сайт будет запущен (это случилось со мной …), иначе ваши результаты SEO будут очень плохими …. Для дальнейшего чтения по этой теме, посмотрите этот пост на Moz.com.

Как изменить файл robots.txt в Joomla

Все популярные поисковые системы в Интернете согласились использовать текстовый файл, предоставляемый каждым веб-сайтом, который указывает им, какую часть веб-сайта им следует индексировать, а какую — нет. Этот текстовый файл называется robots.txt.

В этом посте мы поговорим о файле robots.txt Joomla, а именно о

.

Что такое роботы.txt

Файл robots.txt — это файл, который содержит набор правил для поисковых систем. Каждое правило содержит путь к папке и указывает, разрешено или запрещено индексировать этот путь к папке.

Хотя вы должны знать, что не все поисковые системы уважают этот файл. Так что имейте в виду, что вы не должны использовать этот файл для сокрытия информации.

Что содержит файл robots.txt Joomla?

Как видно из приведенного ниже кода, файл robots.txt Joomla содержит довольно большой набор папок, индексирование которых запрещено поисковыми системами.

  # Если сайт Joomla установлен в папке
# например, www.example.com/joomla/, затем файл robots.txt
# НЕОБХОДИМО переместить в корень сайта
# например, www.example.com/robots.txt
# И имя папки joomla ДОЛЖНО быть префиксом ко всем
# пути.
# например, правило запрета для папки / administrator / ДОЛЖНО
# изменить на чтение
# Запретить: / joomla / administrator /
#
# Дополнительную информацию о стандарте robots. txt см .:
# http://www.robotstxt.org/orig.html
#
# Для проверки синтаксиса см .:
# http: // tool.motoricerca.info/robots-checker.phtml
Пользовательский агент: *
Запретить: / администратор /
Запретить: / bin /
Запретить: / cache /
Запретить: / cli /
Disallow: / components /
Disallow: / включает /
Запретить: / установка /
Запретить: / язык /
Запретить: / layout /
Запретить: / библиотеки /
Запретить: / журналы /
Запретить: / modules /
Запретить: / плагины /
Запрещение: / tmp /
  

Строка User-agent: * в основном говорит о том, что приведенным ниже правилам должны следовать ВСЕ поисковые системы.

Запрещенный набор папок — это в основном папки, которые содержат код Joomla и не имеют ничего общего с вашим контентом.Поэтому в любом случае они не содержат ценной информации для поисковых систем. Вот почему разумно запретить любой доступ к ним и сохранить результаты поисковых систем для вашего веб-сайта, относящиеся только к вашему контенту.

Как изменить его в глобальной конфигурации Joomla

Глобальная конфигурация

Joomla позволяет быстро изменить основные функции вашего файла robots. txt. Посмотрим, что есть в наличии.

Сначала вам нужно перейти к глобальной конфигурации Joomla, как показано на скриншоте ниже.

Затем в нижней части экрана будет раздел «Параметры метаданных» и там поле выбора под названием «Роботы», как на скриншоте ниже

.

Как видите, это поле выбора содержит 4 параметра, которые, по сути, представляют собой все комбинированные варианты «Индекс / Нет индекса» и «Следование / Без отслеживания».

Наиболее распространенным значением этой опции является Index, Follow, который дает указание поисковым системам сканировать весь веб-сайт и индексировать все.

Вопрос в том, что означает Index and Follow?

Индекс

: индексирование означает, что поисковая система будет использовать любую часть вашего веб-сайта в своих результатах поиска.

Follow: Follow означает, что поисковая система будет использовать любую ссылку, предоставленную любой частью вашего веб-сайта, для дальнейшего перехода на ваш веб-сайт и, следовательно, для создания его древовидной структуры.

Как правило, вы бы использовали «Нет подписки», если бы у вашего веб-сайта был только один уровень, и вы не хотели бы, чтобы какая-либо поисковая система использовала какие-либо ссылки на этой странице, которые могут или не могут вести на совершенно другой веб-сайт.

Наконец, когда вы выбрали подходящий вам вариант, просто продолжайте и сохраняйте.

Что делать, если вы недавно обновились с Joomla 3.3

Joomla 3.3 и более ранние версии имели другой файл robots.txt, в котором использовался другой набор инструкций.После выпуска Joomla 3.4 эти инструкции были изменены, чтобы соответствовать последним изменениям в поисковых системах и структуре папок Joomla.

Проблема в том, что процесс автоматического обновления не изменяет файл robots.txt, и поэтому вам следует вручную получить новую копию robots.txt из последней версии Joomla и использовать ее.

Вот и все! Если вам нравятся наши руководства для начинающих пользователей Joomla, вы можете подписаться на нашу рассылку новостей и подписаться на нас в Twitter, чтобы первыми получать уведомления о новых сообщениях!

seo — Роботы Joomla.

txt и Google

Папки Media и Templates не должны быть запрещены в первую очередь. GoogleBot теперь требует доступа к css / js веб-сайта, чтобы понять дизайн и макет веб-сайта, и эти две папки Joomla являются местом, где находится большая часть css / js.

Так что логично, что Google сообщил, что ваш сайт не отвечает, поскольку у него нет доступа к необходимым файлам.

Однако, если у вас была причина для запрета мультимедиа и шаблонов, вы можете оставить запрет как есть, а позже специально разрешить доступ к отдельным файлам или подпапкам указанных выше папок.

Подробнее о том, как создать файл robots.txt, читайте здесь: http://www.robotstxt.org

Для вашего сведения, вот как выглядит последний файл robots.txt, поставляемый с Joomla:

  # Если сайт Joomla установлен в папке
# например, www.example.com/joomla/, затем файл robots.txt
# НЕОБХОДИМО переместить в корень сайта
# например, www.example.com/robots.txt
# И имя папки joomla ДОЛЖНО быть префиксом ко всем
# пути. 
# например, правило запрета для папки / administrator / ДОЛЖНО
# изменить на чтение
# Запретить: / joomla / administrator /
#
# Для получения дополнительной информации о файле robots.txt, см .:
# http://www.robotstxt.org/orig.html
#
# Для проверки синтаксиса см .:
# http://tool.motoricerca.info/robots-checker.phtml

Пользовательский агент: *
Запретить: / администратор /
Запретить: / bin /
Запретить: / cache /
Запретить: / cli /
Disallow: / components /
Disallow: / включает /
Запретить: / установка /
Запретить: / язык /
Запретить: / layout /
Запретить: / библиотеки /
Запретить: / журналы /
Запретить: / modules /
Запретить: / плагины /
Запрещение: / tmp /
  

В качестве примера того, что я объяснил выше, вы можете добавить ниже приведенные выше строки, в частности разрешить такие инструкции:

  Разрешить: / *.js $
Разрешить: /*.css$

Разрешить: / components / com_YOURDESIRED_COMPONENT / css /
Разрешить: / components / com_YOURDESIRED_COMPONENT / js /
Разрешить: / components / com_YOURDESIRED_COMPONENT / images /

Разрешить: / modules / mod_YOURDESIRED_MODULE / css /

Разрешить: /media/SUBFOLDER/css/A_SPECIFIC_CSS_FILE. css

Разрешить: / templates / ВАШ ШАБЛОН / css /
Разрешить: / templates / ВАШ ШАБЛОН / js /
Разрешить: / templates / YOURTEMPLATE / images /
  

Используйте инструменты Google для веб-мастеров — тестер robots.txt, чтобы проверить инструкции для роботов: https: // support.google.com/webmasters/answer/6062598?hl=en

joomla-cms / robots.txt.dist при постановке · joomla / joomla-cms · GitHub

joomla-cms / robots.txt.dist при постановке · joomla / joomla-cms · GitHub Постоянная ссылка

В настоящее время невозможно получить участников

28 строк (27 слотов) 748 байт

.
# Если сайт Joomla установлен в папке
# например www. example.com/joomla/, затем файл robots.txt
# НЕОБХОДИМО переместить в корень сайта
# например, www.example.com/robots.txt
# И имя папки joomla ДОЛЖНО быть префиксом для всех
# пути.
# например, правило запрета для папки / administrator / ДОЛЖНО
# следует заменить на
# Disallow: / joomla / administrator /
#
# Для получения дополнительной информации о robots.txt, см .:
# https://www. robotstxt.org/orig.html
Агент пользователя: *
Запретить: / administrator /
Disallow: / bin /
Запретить: / cache /
Запрещено: / cli /
Disallow: / components /
Disallow: / includes /
Disallow: / installation /
Disallow: / language /
Запретить: / layout /
Запрещено: / библиотеки /
Запретить: / logs /
Disallow: / modules /
Disallow: / plugins /
Disallow: / tmp /
Вы не можете выполнить это действие в настоящее время.Вы вошли в систему с другой вкладкой или окном. Перезагрузите, чтобы обновить сеанс. Вы вышли из системы на другой вкладке или в другом окне. Перезагрузите, чтобы обновить сеанс.

Как настроить файл robots.txt в Joomla

Файл robots.txt — это небольшой файл, расположенный в корневой папке вашего сайта Joomla. Файл содержит инструкции для поисковых систем о том, что индексировать, а что не учитывать.

Некоторые путают файл robots.txt с расширением.htaccess файл. Разница существенная. Первый дает инструкции только поисковым системам — и большинство поисковых систем уважают их. Файл robots.txt не используется ни для чего, связанного с безопасностью. Тем не менее, это может повлиять на поисковую оптимизацию.

Файл .htaccess, с другой стороны, используется для перенастройки настроек вашего сервера Apache, перенаправления URL-адресов и других задач, связанных с сервером. Подробнее об этом в более позднем посте.

Файл robots.txt и SEO

Как уже упоминалось, файл robots.txt находится в корневой папке вашего сайта. Он содержит информацию о том, какие папки следует индексировать, а какие нет. Я также могу включить информацию о вашей XML-карте сайта.

Я бы порекомендовал всего два совета относительно SEO и файла robots.txt:

1. Убрать исключение изображений

По непонятным мне причинам файл robots.txt по умолчанию в Joomla настроен так, чтобы исключить папку с изображениями. Это означает, что ваши изображения не будут проиндексированы Google и включены в их поиск изображений.И это то, что вам нужно, поскольку это добавляет еще один уровень видимости вашего сайта в поисковых системах.

Чтобы изменить это, откройте файл robots.txt и удалите строку, которая гласит:

 Disallow: / images / 

Удалив эту строку, Google начнет индексировать ваши изображения при следующем сканировании вашего сайта.

2. Добавьте ссылку на свой файл sitemap.xml

Я уже говорил о XML-файле Sitemap ранее в своем сообщении «Как индексировать ваш сайт Joomla в Google».Если у вас есть файл sitemap.xml (а у вас должен быть!), Будет хорошо включить в файл robots.txt следующую строку:

 карта сайта: http: //www.domain.com/sitemap.xml 

Естественно, эту строку нужно настроить, чтобы она соответствовала вашему домену и файлу карты сайта. В моем случае я использую компонент Xmap для автоматического создания XML-файла Sitemap.

Итак, для Joomlablogger.net строка выглядит так:

Карта сайта
: http: //www.joomlablogger.net/component/option,com_xmap/lang,en/sitemap,1/view,xml/ 

Кроме этого, robots. txt может спокойно жить в корневой папке вашего сайта.

ОБНОВЛЕНИЕ: Обратите внимание, что есть некоторые изменения в файле robots.txt, начиная с Joomla 3.3.

# Если сайт Joomla установлен в папке, например в # например www.example.com/joomla/ файл robots.txt ДОЛЖЕН быть # перемещен в корень сайта, например, www.example.com/robots.txt # И имя папки joomla ДОЛЖНО быть префиксом запрещенного # путь, например правило запрета для папки / administrator / # ДОЛЖЕН быть изменен на Disallow: / joomla / administrator / # # Для получения дополнительной информации о файле robots.txt, см .: # http://www.robotstxt.org/orig.html # # Для проверки синтаксиса см .: # http://tool.motoricerca.info/robots-checker.phtml Пользовательский агент: * Запретить: / администратор / Запретить: / bin / Запретить: / cache / Запретить: / cli / Disallow: / components / Disallow: / включает / Запретить: / установка / Запретить: / язык / Запретить: / layout / Запретить: / библиотеки / Запретить: / журналы / Запретить: / media / Запретить: / modules / Запретить: / плагины / Запретить: / templates / Запрещение: / tmp / Запретить: / мусор / Запретить: / images / professional / tp / Запретить: / images / email / Запретить: / images / email / signatures / Запретить: / test / Запретить: / test. html Запретить: /test-2.html Запретить: /test-3.html Запретить: /test-4.html Запретить: /news-test.html Запретить: /stories.html Запретить: /books-leadership.html Запретить: / documents / ni / Разрешить: /plugins/system/jch_optimize/assets2/jscss.php Разрешить: / плагины / система / jsntplframework / assets / сторонние / bootstrap / css Разрешить: /plugins/system/jsntplframework/assets/joomlashine/js/noconflict.js Разрешить: / plugins / system / jsntplframework / assets / joomlashine / js / Разрешить: / plugins / system / t3 / base-bs3 / bootstrap / js Разрешить: / plugins / system / t3 / base-bs3 / js Разрешить: / plugins / system / t3 / base-bs3 / fonts / font-awesome / css Разрешить: / templates / uber / acm / bar / js / script.js Разрешить: /templates/uber/acm/footer/js/script.js Разрешить: / templates / uber / acm / gallery / js Разрешить: / templates / uber / acm / header / js Разрешить: / templates / uber / fonts / font-awesome Разрешить: /templates/uber/images/dbu-logo. png Разрешить: / templates / uber / js Разрешить: / templates / uber / local / acm / bar / css Разрешить: / templates / uber / local / acm / cta / css Разрешить: / templates / uber / local / acm / features-intro / css Разрешить: / templates / uber / local / acm / footer / css Разрешить: / templates / uber / local / acm / gallery / css Разрешить: / templates / uber / local / acm / header / css Разрешить: / templates / uber / local / css Разрешить: / templates / jsn_metro_pro_dbu / css Разрешить: / templates / jsn_metro_pro_dbu / images Разрешить: / templates / jsn_metro_pro_dbu / js Разрешить: / templates / jsn_metro_pro_gsom / css Разрешить: / templates / jsn_metro_pro_gsom / images Разрешить: / templates / jsn_metro_pro_gsom / js Разрешить: / templates / system / css / general.css Разрешить: /templates/system/css/system.css Разрешить: / media / com_uniterevolution / assets / rs-plugin / js Разрешить: / media / com_uniterevolution / assets / rs-plugin / css Разрешить: / media / com_uniterevolution / assets / rs-plugin / assets Разрешить: / media / jui Разрешить: / media / system / js Разрешить: / media / system / css Разрешить: / components / com_imageshow / assets / css Разрешить: / изображения

Как использовать файл robots.

txt для улучшения сканирования вашего сайта поисковыми роботами? ‘; вар endpan = »; var a = »; var enda = »; Как пользоваться роботами.txt, чтобы улучшить сканирование вашего сайта поисковыми роботами?

Назначение файла robots.txt — сообщить поисковым роботам, какие файлы они должны индексировать, а какие нет. Чаще всего он используется для указания файлов, которые не должны индексироваться поисковыми системами.

Чтобы поисковые роботы могли сканировать и индексировать весь контент вашего веб-сайта, вы можете добавить следующие строки в файл robots.txt :

User-agent: *
Disallow:

На С другой стороны, если вы хотите полностью запретить индексирование вашего веб-сайта, вы можете использовать следующие строки:

User-agent: *
Disallow: /

Для получения более сложных результатов вам необходимо понять разделы в роботов.txt файл. Строка « User-agent: » указывает, для каких ботов должны быть действительны настройки. Вы можете использовать « * » в качестве значения для создания правила для всех поисковых роботов или имени бота, для которого вы хотите установить определенные правила.

Часть « Disallow: » определяет файлы и папки, которые не должны индексироваться поисковыми системами. Каждую папку или файл следует определять с новой строки. Например, в следующих строках все поисковые роботы не должны индексировать папки « private » и « security » в вашей папке public_html :

User-agent: *
Disallow: / private
Disallow : / security

Обратите внимание, что оператор « Disallow: » использует корневую папку вашего веб-сайта в качестве базового каталога, поэтому путь к вашим файлам должен быть / sample.txt , а не /home/user/public_html/sample.txt , например.

Соответствующая статья

Источник назначения
: https: //www.