После создания файла sitemap.xml самое время сказать поисковым роботам, где нужно и где не нужно искать на нашем сервере (в том числе тот же sitemap.xml). Создание файла robots.txt для этих нужд при использовании MODX Revolution, в целом, не сильно отличается от прочих случаев. Однако, мы можем упростить поисковым роботам жизнь, если учтём в robots.txt каталоги этой CMS.
Самый простой и универсальный способ создания файла robots.txt это создать его непосредственно на своём компьютере, а затем загрузить в корень сайта. Просто откройте текстовый редактор, создайте файл с именем robots и задайте ему расширение txt.
Другой способ создать robots.txt для MODX Revolution — создать его непосредственно из «админки». Сразу скажу, что «универсального» или «правильного» файла robots.txt не существует. Вы наполняете его в соответствии с вашими потребностями. Ниже я приведу пример такого файла и прокомментирую его содержимое.
User-agent: * Disallow: /cgi-bin/ Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Allow: /core/cache/phpthumb/*.jpeg Allow: /core/cache/phpthumb/*.png Allow: /core/cache/phpthumb/*.svg Host: [URL-сайта] Sitemap: [URL-сайта]/sitemap.xml
Первая строчка (User-agent: *) говорит нам о том, что настройки применяются ко всем поисковым роботам.
Строки, начинающиеся с Disallow, запрещают индексирование указанных каталогов. Какие каталоги мы закрыли?
cgi-bin — папка для CGI-скриптов, может содержать файлы конфигурации;
manager — каталог админ-панели MODX;
assets/components — каталог с дополнениями;
core — каталог ядра CMS;
connectors — каталог точек входа для AJAX-запросов;
index.php — дубль главной страницы сайта;
Ну а *? поможет избавиться от дублей страниц.
Отметим, что даже если вы не собираетесь ничего закрывать, оставьте в файле строку
Disallow:
Дело в том, что инструкция Disallow является обязательной в robots.txt, и без неё робот может «не понять» файл.
Строки, которые начинаются с Allow, открывают доступ к определенным частям сайта. На самом деле, поисковый робот сканирует всё, что не помечено Disallow, но что делать, если нужно открыть доступ к определенным файлам или подкаталогам в закрытом каталоге? Тогда и используется Allow. Так, хотя мы и закрыли доступ к папке core, но разрешаем сканирование изображений в /core/cache/phpthumb/.
Директива Host нужна для поискового робота Яндекса. Если вы используете протокол HTTPS, то URL сайта в этой строке нужно указать с ним. При использовании HTTP протокол указывать не нужно. Однако, в свете последних событий, использование директивы Host выглядит не обязательным.
Наконец, мы указываем поисковым работам точное расположение файла sitemap.xml.
После окончания редактирования положите файл robots.txt в корень сайта (обычно каталог public_html).
Статьи по теме: