CDN
Поисковые боты. Как заблокировать поисковых ботов
Если в качестве источника вашего CDN-ресурса выступает сайт, то его копия, располагающаяся на персональном домене CDN-ресурса может быть проиндексирована поисковыми системами.
Есть два способа запретить поисковым системам индексировать копию сайта.
1. Создать файл robots.txt на источнике
1) На источнике создайте папку и поместите в неё файл robots.txt с настройками запрета индексации:
User-agent: * Disallow: /
2) В настройках CDN ресурса создайте правило со следующими параметрами:
-
Шаблон правила: /robots.*
-
Rewrite: /(.*) /folder/$1
Где folder — название папки, которую вы создали на первом шаге.
Как это работает? Поисковые боты проверяют настройки для индексирования в файле robots.txt.
С помощью правила мы перезаписываем путь, по которому поисковые боты будут обращаться к вашему персональному домену. Например, если ваш домен — cdn.domain.com, то поисковые боты будут видеть файл cdn.domain.com/robots.txt, который располагается в директории /folder/robots.txt на источнике. Так как в этом файле указаны директивы, запрещающие индексирование, персональный домен cdn.domain.com не попадёт в выдачу поисковых систем.
На индексирование самого сайта эти настройки не повлияют.
2. Настроить запрет индексации на CDN
В настройках CDN ресурса создайте правило со следующими параметрами:
-
Шаблон правила: /robots.txt
-
Код ответа: 200 и User-agent: *\nDisallow: /\n
Как это работает? Поисковые боты проверяют настройки для индексирования в файле robots.txt.
С помощью правила мы переопределяем содержание файла robots.txt на стороне CDN. Так, поисковые боты при запросе к файлу robots.txt получат ответ User-agent: *\nDisallow: /\n, который мы сгенерировали с помощью опции Код ответа, поэтому они не смогут проиндексировать копию сайта.