Файл robots.txt регулирует права доступа поисковых роботов к страницам и разделам Вашего сайта. В файле прописываются страницы, к которому запрещен доступ роботам. Но запускают файл robots.txt и следуют написанным там директивам только роботы наиболее распространенных поисковиков. Злоумышленники же могут игнорировать как сам файл, так и содержащиеся в нем директивы. Поэтому помните, что важную информацию лучше всего защищать паролем, а не надеяться на блокировку страниц.
Robots.txt используется только в том случае, если есть необходимость не индексировать некоторые страницы сайта. Если Вы хотите, чтоб поисковые системы получили доступ ко всем разделам сайта, robots.txt не нужен, даже пустой.
Несмотря на то, что роботы не индексируют и не сканируют страницы, содержащиеся в robots.txt, ссылки, размещенные на сторонних сайтах, попадут в поиск. Таким образом, URL страницы, а так же текст ссылки или другие общедоступные сведения могут появиться в результатах поиска.
Создаем robots.txt
Для этого нехитрого дела нам нужен доступ к корню каталога сайта. Если у Вас его нет, обратитесь к администратору хостинга. Именно в корень каталога в итоге сайт и нужно будет поместить.Создать файл можно как самому, так и с помощью соответствующих инструментов поисковых систем. В нем ничего сложного нет, в основном используется всего два пункта:
User-agent: имя робота (например, Yandex или Googlebot)
Disallow: ссылка, которую нужно запретить для этого робота.
Эти две строчки принимаются за одну запись. В одну запись можно включить несколько строк Disallow, несколько User-agent, и самих записей в теле файла может быть несколько. Каждая запись обрабатывается отдельно, поэтому разным роботам можно запретить разные страницы.
Например:
User-agent: *
Disallow: /papka1/
User-Agent: Yandex
Disallow: /papka2/
В этом случае поисковому роботу Яндекса будут запрещены все страницы, находящиеся в каталоге papka2/.
В базе данных роботов Интернета есть множество поисковых роботов и Вы можете прописать запрет на индексирование для конкретного поисковика, или же для всех, используя вместо имени звездочку (*).
Шпаргалки к файлу robots.txt
Заблокировать абсолютно весь сайт:
Disallow: /
Заблокировать каталог и страницы в нем:
Disallow: /tainy-katalog/
Заблокировать страницу:
Disallow: /personal_file.html
Удалить все ваши изображения с поисковика Гугл:
User-agent: Googlebot-Image
Disallow: /
Скрыть одно изображение:
User-agent: Googlebot-Image
Disallow: /kartinki/cats.jpg
Скрыть все изображения определенного типа (на примере .gif):
User-agent: *
Disallow: /*.gif$
Регистр имеет значение, следите за правильным написанием адреса.
Проверка на ошибки
После того, как Вы создали свой robots.txt, неважно каким способом, его можно проверить. Гугл и Яндекс предоставляет такую возможность с помощью их инструментов. Чтоб проверить, действительно ли Яндекс не будет индексировать страницы, прописанные в robots.txt, следует перейти по этой ссылке
Для проверки поисковых возможностей Google, зайдите в Инструменты для веб-мастеров и перейдите в раздел «Настройка сайта» - «Доступ сканера». На вкладке «Проверить robots.txt» скопируйте содержимое файла и вставьте в первое поле, а в списке URL выберите сайты, которые будут подлежать проверке. Выберите поисковых роботов и наслаждайтесь результатом. Но помните, если Вы будете вносить изменения в файл с помощью этого инструмента, они не сохранятся. Чтоб внести изменения, необходимо скопированный текст вчставить непосредственно в тело файла robots.txt.
Важность Host в robots.txt