SEO Настройка файла robots.txt

  • Автор темы Underground Forum
  • Дата начала
Underground Forum

Underground Forum

  • #1
Robots.txt - это служебный файл находящийся в корне сайта, внутри этого файла содержится набор директив указывающих поисковым роботам на то, какие URL стоит обрабатывать и индексировать, а какие нет.
По сути это всего лишь набор рекомендаций для поисковых роботов, страницы могут быть все равно проиндексированы если на URL ссылаются другие сайты. Данный файл не предназначен для того, чтобы запрещать показывать тот или иной материал на сайте.

Основные возможности robots.txt

Чаще всего robots.txt используется для изъятия страниц дубликатов, технических страниц, страниц с ошибками, страниц пагинации и прочего из индекса поисковых систем. С помощью robots.txt можно также запретить сканирование CSS файлов и скриптов, или даже скрыть сайт от нежелательных поисковиков, правда делать это нужно с осторожностью.

Правила использования robots.txt

  • Форматом файла должен быть plain text в кодировке UTF-8.
  • Robots.txt должен располагаться в корневой директории вашего сайта и быть единственным.
  • Все записи должны начинаться с User-agent (Правила).
  • У каждого правила должна быть директива Allow: (Разрешить) или Disallow: (Запретить).
  • Число команд в файле не должно превышать 1024.
User-agent: * # Правило указывает директивы для всех роботов одновременно
Allow: /      # Директива разрешает индексацию всего сайта

Директивы


Disallow: Указывает на директорию или страницу сайта, которую нельзя сканировать.

Allow: Указывает на директорию или страницу сайта, которую можно сканировать.
Данная директива используется также, когда например нужно открыть доступ к странице в закрытой директории.

Clean-param: Используется тогда, когда URL страницы содержат GET-параметры. Эта директива не является обязательной.

Символы

# - Начало комментирования.
/ - Добавляют после команды, перед названием директории или файла.

* - Определяет условие действующее для всех.
$ - URL содержащие данный символ становятся доступными для индексирования.

Примеры


Разрешить индексировать всем ботам всех поисковых систем
User-agent: *
Allow: /

Запретить всем Яндекс ботам
User-agent: Yandex
Disallow: /

Запретить всем Google ботам
User-agent: Googlebot
Disallow: /

Запрет обхода страниц начинающихся с /blog
User-agent: *
Disallow: /blog

Запретить индексировать все страницы начинающихся с /blog, но разрешить /blog/page
User-agent: *
Allow: /blog/page
Disallow: /blog

Запретить индексацию папок cgi-bin и images для всех поисковых роботов
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Объединить все page.php страницы к единой ссылке:
Пожалуйста, Войдите или Зарегистрируйтесь для просмотра содержания URL!
User-agent: *
Disallow:
Clean-param: get /folder/page.php
 
  • Like
Реакции: Buck
Сверху