Создание и настройка robots.txt для MODX Revolution

Создание и настройка robots.txt для MODX RevolutionПосле создания файла sitemap.xml самое время сказать поисковым роботам, где нужно и где не нужно искать на нашем сервере (в том числе тот же sitemap.xml). Создание файла robots.txt для этих нужд при использовании MODX Revolution, в целом, не сильно отличается от прочих случаев. Однако, мы можем упростить поисковым роботам жизнь, если учтём в robots.txt каталоги этой CMS.

Самый простой и универсальный способ создания файла robots.txt это создать его непосредственно на своём компьютере, а затем загрузить в корень сайта. Просто откройте текстовый редактор, создайте файл с именем robots и задайте ему расширение txt.

Другой способ создать robots.txt для MODX Revolution — создать его непосредственно из «админки». Сразу скажу, что «универсального» или «правильного» файла robots.txt не существует. Вы наполняете его в соответствии с вашими потребностями. Ниже я приведу пример такого файла и прокомментирую его содержимое.

User-agent: *

Disallow: /cgi-bin/
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?

Allow: /core/cache/phpthumb/*.jpeg
Allow: /core/cache/phpthumb/*.png
Allow: /core/cache/phpthumb/*.svg

Host: [URL-сайта]
Sitemap: [URL-сайта]/sitemap.xml

Первая строчка (User-agent: *) говорит нам о том, что настройки применяются ко всем поисковым роботам.

Строки, начинающиеся с Disallow, запрещают индексирование указанных каталогов. Какие каталоги мы закрыли?

cgi-bin — папка для CGI-скриптов, может содержать файлы конфигурации;

manager — каталог админ-панели MODX;

assets/components — каталог с дополнениями;

core — каталог ядра CMS;

connectors — каталог точек входа для AJAX-запросов;

index.php — дубль главной страницы сайта;

Ну а *? поможет избавиться от дублей страниц.

Отметим, что даже если вы не собираетесь ничего закрывать, оставьте в файле строку

Disallow:

Дело в том, что инструкция Disallow является обязательной в robots.txt, и без неё робот может «не понять» файл.

Строки, которые начинаются с Allow, открывают доступ к определенным частям сайта. На самом деле, поисковый робот сканирует всё, что не помечено Disallow, но что делать, если нужно открыть доступ к определенным файлам или подкаталогам в закрытом каталоге? Тогда и используется Allow. Так, хотя мы и закрыли доступ к папке core, но разрешаем сканирование изображений в /core/cache/phpthumb/.

Директива Host нужна для поискового робота Яндекса. Если вы используете протокол HTTPS, то URL сайта в этой строке нужно указать с ним. При использовании HTTP протокол указывать не нужно. Однако, в свете последних событий, использование директивы Host выглядит не обязательным.

Наконец, мы указываем поисковым работам точное расположение файла sitemap.xml.

После окончания редактирования положите файл robots.txt в корень сайта (обычно каталог public_html).

Добавить комментарий

Ваш адрес email не будет опубликован.