Как закрыть индексацию сайта через robots, htaccess, метатеги
Пошаговая инструкция как закрыть сайт на wordpress (и другие) от индексации.
Приятного чтения!
Закажите создание сайта, или продвижение, или контекстную рекламу у нас
Есть несколько вариантов:
I. Через файл robots.txt;
II. Через файл .htaccess;
III. Через метатеги noindex, nofollow;
IV. Через панель администратора wordpress;
Закрываем индексацию сайта через файл robots.txt:1.1 Для начала проверим есть ли такой файл. Для этого зайдем на сервере в папку с файлами сайта, обычна она называется также как доменное имя:
1.2 Если такого файла нет:
1.2.1 На рабочем столе компьютера нажимаем правой кнопкой мыши, в выпавшем меню выбираем «Создать», далее выбираем «Текстовый документ»:
1.
Так как у меня сайт на CMS WordPress, то мой файл будет выглядеть вот так:
2.3 Сохраняем файл .htaccess и закачиваем его обратно в корневую папку сайта, замещая старый файл;
Запрещаем индексацию через метатеги noindex, nofollow
Для этого нужно знать, в каком из файлов лежит шаблон header для страниц вашего сайта. Ниже я опишу вариант для WordPress
3.1 Для вордпресса вы должны зайти на сервере по директории /ДОМЕННОЕ ИМЯ ВАШЕГО САЙТА/wp-content/themes/ВАША ТЕМА. Ниже приведен пример для сайта frez.by с используемой темой astra:
3.2 Находим файл «header.php»:
3.3 Скачиваем это файл себе на компьютер с сервера и открываем в текстовом редакторе. После чего находим тег «<head>», после которого сразу вставляет метагег:
<meta name="robots" content="noindex, nofollow">
3.4 Сохраняем файл и не забываем закачать обратно на сервер;
Как закрыть сайт от индексации wordpress через панель управления
4. 1 Заходим в административную панель сайта, в боков меню ищем раздел «Настроки» (4.1), далее выбираем подраздел «Чтение» (4.2), далее в низу страницы находим предложение «Попросить поисковые системы не индексировать сайт» и ставим галочку (4.3) и не забываем сохранить (4.4):
Все, готово!
Теперь вы знаете как закрыть сайт от индексации.
Надеюсь статья была вам полезна.
Если есть вопросы — задавайте в комментариях
Закажите создание сайта, или продвижение, или контекстную рекламу у нас
Похожие
- Ссылка на вайбер для сайта (кнопка viber на сайт)
- Полезные расширения по различным категориям
- Как установить joomla
Как закрыть ссылки и страницы сайта от индексации?
С какой целью порой может использоваться закрытие веб-сайта или каких-то его разделов, страниц от индексации поисковыми системами? Вариантов с ответами имеются несколько:
- Следует убрать от всеобщего обзора ту или иную информацию, в которой могут находиться секретные данные.
- Если нужно сформировать подходящий релевантный контент: случаются варианты, если очень сильно возникает желание сообщить пользователям Интернете больший поток информации, однако которая делает туманной релевантность по тексту.
- Закрыть от роботов дублирующий контекст.
- Спрятать информацию, которая не представляет интереса для пользователей, и которую так не любят поисковые роботы, считая ее спамом в медиа-контенте.
Например, это могут быть портфолио, материалы сайта с устаревшим смыслом, какие-то расписания в справочниках.
Запрет на индексацию сайта или каких-то частей с помощью файла robots.txt
Для начала нужно создать текстовый файл с названием robots.txt.
Затем прописываем там следующий код:
1 User-agent: *
2 Disallow: /
После этого полученный файл robots.txt уже с помощью FTP заливаем в корень сайта.
Если необходимо запретить индексацию сайта только от роботов Яндекса нужно прописать:
1 User-agent: Yandex
2 Disallow: /
Если же нужно закрыть сайт только от роботов Google, то код примет следующий вид:
1 User-agent: Googlebot
2 Disallow: /
Закрытие сайта от индексации через файл . php» search_bot
Способ второй
Для страницы, которую необходимо закрыть, можно в файле .htaccess прописать любой из следующих ответов сервера:
1 403 «Доступ к ресурсу запрещен», т.е. код 403 Forbidden
2 410 «Ресурс недоступен», т.е. окончательно удален
Способ третий
Можно закрыть индексацию к сайту с помощью доступа только по паролю:
В этом случае, в файле .htaccess, вставляем следующий код:
1 AuthType Basic
2 AuthName «Password Protected Area»
3 AuthUserFile /home/user/www-pass/.htpasswd
4 Require valid-user
Значит в корне сайта создаем — home/user/www-pass/.htpasswd
где .htpasswd — файл с паролем, который создаем сами в файле.
Но затем следует добавить пользователя в файл паролей htpasswd — /home/user/www-pass/.htpasswd USERNAME
где USERNAME — это имя пользователя для авторизации.
Здесь можно прописать свой вариант.
Как закрыть отдельный блог от индексации?
Зачастую бывает, что необходимо закрыть от поисковой индексации не весь сайт целиком, а только конкретный источник: список, счетчик, запись, страницу либо какой-нибудь код.
В одно время, достаточно было использовать тег «noindex», но это больше подходило для роботов Яндекса, а для Google были достаточны обычные действия.
Здесь может быть любой текст, ссылки или код
Но затем роботы Яндекс стали меньше обращать внимания на такую техническую «уловку», а роботы Google вообще перестали понимать данную комбинацию. В результате, технические специалисты сайтов, стали применять иной вариант с целью закрытия индексации части текста на какой-либо странице, используя скрипты javascript, либо соответствующие плагины или модули.
Часть текста шифруется с помощью javascript. Но следует помнить, что затем непосредственно сам скрипт нужно будет закрыть от индексации в robots.txt.
Универсальный способ закрытия изображений (медиафайлов) от индексации
Многие сайты используют картинки, которые в основном берутся из Интернета, я значит никак не могу считаться уникальными. В результате таких действий, появляется боязнь, то, что роботы поисковиков отнесутся к таким сайтам негативно, а именно будут блокировать продвижение и повышение в рейтингах.
В этом случае следует на странице сделать следующую запись в коде:
Скрипт, который будет обрабатывать элемент:
Как закрыть от индексации внешние либо внутренние ссылки?
Такие действия нужно только в том случае, если нужно закрыть от индексации входящие ссылки от сайтов находящиеся под санкциями поисковых систем, а так же скрыть исходящие ссылки на сторонние ресурсы, чтобы предотвратить уменьшение веса сайта, а именно ТИЦ сайта донора.
Для этого нужно создать файл transfers.js
После этого нижеуказанную часть кода вставляем в файл transfers.js:
function goPage(sPage) {
window.location.href = sPage;
}
После этого данный файл уже размещаем в соответствующей папке сайта и на странице в head добавляем код:
И теперь прописываем необходимую ссылку, которую нужно скрыть от индексации поисковых систем:
Как закрыть от индексации роботов отдельную страницу на сайте?
Первый метод — через файл robots.txt
Disallow: /URL-страницы сайта
Второй метод — закрытие с помощью метатегов
Третий метод — в Вебмастере Яндекса, в разделе «Инструменты» с помощью «Удалить URL» можно отдельно по каждой ссылке сделать запрет на индексацию от роботов Яндекса.
Четвертый метод — сделать запрет на индексацию через ответ сервера:
404 — ошибка страницы
410 — страница удалена
И сделать добавление в файле .htaccess:
ErrorDocument 404 https://URL-сайта/404
Однако, данным метод используется весьма редко.
Как закрыть от индексации сразу весь раздел или категорию на сайте?
Лучший способ — реализовать это с помощью файла robots.txt, где внутри прописать:
User-agent: *
Disallow: /название раздела или категории
Дополнительные варианты:
Кроме указанных выше способов, также могут подойти способы, которые применяются для сокрытия страницы сайта целиком, либо какого-то раздела, — правда, если подобные действия могут быть сделаны автоматически:
- соответствующий ответ сервера для определенных страниц раздела сайта
- применение мета-тегов к определенным страницам
Все эти без исключения методы, возможно, осуществить программно, а никак не в «ручном» режиме назначать к любой страничке или части текста запрет на индексацию — весьма дороги трудовые затраты.
![]()
Конечно, ведь легче в целом сделать соответствующее запрещение в файле robots.txt, однако практика показывает, то что это не может гарантировать на 100% запрет на индексацию.
Как закрыть от индексации целиком папку?
В этом случае на закрытие пойдет непосредственно папка, а не раздел. Ведь нам нужно закрыть папку с файлами, которые не должны видеть поисковые роботы, а это могут быть какие-то разработки, документы, картинки и многое другое.
User-agent: *
Disallow: /folder/
Пять способов закрытия на сайте дублей от поисковой индексации
Первый способ — и наиболее верный, для того, чтобы их действительно не существовало — необходимо на физическом уровне освободиться от них, т.е. в любом варианте при открытии страницы, кроме оригинальной, должна демонстрироваться страница 404 — ответ сервера.
Второй способ — применять атрибут rel="canonical", который как раз и является наиболее правильным решением. Таким образом, равно как атрибут не позволяет роботам индексировать дублирующиеся страницы, так перенаправляет вес с дублей на оригиналы.
Только на странице дубля в коде следует прописать:
.htaccess — как запретить индексацию сайта
спросил
Изменено 10 лет, 5 месяцев назад
Просмотрено 13 тысяч раз
Я знаю, что этот вопрос задавали много раз, но я хочу уточнить.
У меня есть домен разработки, и я переместил сайт туда в подпапку. Скажем, с:
http://www.example.com/
Кому:
http://www.example.com/backup
Итак, я хочу, чтобы подпапка вообще не индексировалась поисковыми системами. Я положил robots.txt со следующим содержимым в подпапку (могу ли я положить его в подпапку или он всегда должен быть в корне, потому что я хочу, чтобы содержимое в корне было видно поисковым системам):
Пользовательский агент: * Запретить: /
Может надо заменить и поставить в корень следующее:
Агент пользователя: * Запретить: /резервное копирование
Другое дело, я где-то читал, что некоторые роботы не соблюдают файл robots. txt, так что достаточно ли просто поместить файл .htaccess в папку /backup?
Запретить заказ, разрешить Запретить от всех
Есть идеи?
- .htaccess
- search
- indexing
- robots.txt
Это предотвратит индексацию этого каталога:
User-agent: * Запретить: /резервное копирование/
Кроме того, ваш файл robots.txt должен быть размещен в корневом каталоге вашего домена, поэтому в этом случае файл будет размещен там, где вы сможете получить к нему доступ в своем браузере, перейдя по адресу http://example.com/robots. txt
Кроме того, вы можете подумать о создании поддомена для своего сайта разработки, например, http://dev.example.com. Это позволит вам полностью отделить разработку от рабочей среды, а также обеспечит более точное соответствие ваших сред.
Например, любые абсолютные пути к файлам JavaScript, CSS, изображениям или другим ресурсам могут не работать одинаково от разработки до производства, и это может вызвать некоторые проблемы в будущем.
Дополнительные сведения о настройке этого файла см. на сайте robotstxt.org. Удачи!
И последнее замечание: в инструментах Google для веб-мастеров есть раздел, в котором вы можете увидеть, что заблокировано файлом robots.txt:
Чтобы узнать, какие URL-адреса были заблокированы для сканирования Google, посетите страницу «Заблокированные URL-адреса» в разделе «Здоровье» Инструментов для веб-мастеров.
Я настоятельно рекомендую вам использовать этот инструмент, так как неправильно настроенный файл robots.txt может существенно повлиять на производительность вашего веб-сайта.
9
Зарегистрируйтесь или войдите в систему
Зарегистрируйтесь с помощью Google
Зарегистрироваться через Facebook
Зарегистрируйтесь, используя адрес электронной почты и пароль
Опубликовать как гость
Электронная почта
Обязательно, но не отображается
Опубликовать как гость
Электронная почта
Требуется, но не отображается
.

спросил
Изменено 3 года, 7 месяцев назад
Просмотрено 18 тысяч раз
У меня есть www.domainname.com, origin.domainname.com, указывающие на одну и ту же кодовую базу. Есть ли способ предотвратить индексацию всех URL-адресов с базовым именем origin.domainname.com.
В файле robot.txt есть какое-то правило для этого. Оба URL-адреса указывают на одну и ту же папку. Кроме того, я попытался перенаправить origin.domainname.com на www.domainname.com в файле htaccess, но это, похоже, не работает.
Спасибо
- .htaccess
- url-rewriting
- robots.txt
robots.txt$ — [L]
Вместо того, чтобы просить поисковые системы заблокировать все страницы для страниц, отличных от www.