SEO Настройка файла robots.txt

  • Автор темы Underground Forum
  • Дата начала
Underground Forum

Underground Forum

  • #1
Robots.txt - это служебный файл находящийся в корне сайта, внутри этого файла содержится набор директив указывающих поисковым роботам на то, какие URL стоит обрабатывать и индексировать, а какие нет.
По сути это всего лишь набор рекомендаций для поисковых роботов, страницы могут быть все равно проиндексированы если на URL ссылаются другие сайты. Данный файл не предназначен для того, чтобы запрещать показывать тот или иной материал на сайте.

Основные возможности robots.txt

Чаще всего robots.txt используется для изъятия страниц дубликатов, технических страниц, страниц с ошибками, страниц пагинации и прочего из индекса поисковых систем. С помощью robots.txt можно также запретить сканирование CSS файлов и скриптов, или даже скрыть сайт от нежелательных поисковиков, правда делать это нужно с осторожностью.

Правила использования robots.txt
  • Форматом файла должен быть plain text в кодировке UTF-8.
  • Robots.txt должен располагаться в корневой директории вашего сайта и быть единственным.
  • Все записи должны начинаться с User-agent (Правила).
  • У каждого правила должна быть директива Allow: (Разрешить) или Disallow: (Запретить).
  • Число команд в файле не должно превышать 1024.
Код:
User-agent: * # Правило указывает директивы для всех роботов одновременно
Allow: /      # Директива разрешает индексацию всего сайта

Директивы

Disallow: Указывает на директорию или страницу сайта, которую нельзя сканировать.

Allow: Указывает на директорию или страницу сайта, которую можно сканировать.
Данная директива используется также, когда например нужно открыть доступ к странице в закрытой директории.

Clean-param: Используется тогда, когда URL страницы содержат GET-параметры. Эта директива не является обязательной.

Символы

# - Начало комментирования.
/ - Добавляют после команды, перед названием директории или файла.

* - Определяет условие действующее для всех.
$ - URL содержащие данный символ становятся доступными для индексирования.

Примеры

Разрешить индексировать всем ботам всех поисковых систем
Код:
User-agent: *
Allow: /

Запретить всем Яндекс ботам
Код:
User-agent: Yandex
Disallow: /

Запретить всем Google ботам
Код:
User-agent: Googlebot
Disallow: /

Запрет обхода страниц начинающихся с /blog
Код:
User-agent: *
Disallow: /blog

Запретить индексировать все страницы начинающихся с /blog, но разрешить /blog/page
Код:
User-agent: *
Allow: /blog/page
Disallow: /blog

Запретить индексацию папок cgi-bin и images для всех поисковых роботов
Код:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Объединить все page.php страницы к единой ссылке:
Пожалуйста, Войдите или Зарегистрируйтесь для просмотра содержания URL!
Код:
User-agent: *
Disallow:
Clean-param: get /folder/page.php
 
  • Like
Реакции: Buck
Сверху