Описание
Файл robots.txt предназначен для того, чтобы показывать, где и что нужно индексировать. Индексация – это процесс добавления в поисковую базу различных сведений о вашем сайте: о страницах, ссылках, текстовых материалах, графических объектах.
Всю информацию поисковые системы хранят в своем индексе (специальной базе данных). В ней может содержаться как полезная информация, которую вы разрешаете индексировать роботам, так и лишняя, например, официальные документы, не предназначенные для пользователей. для индексации поисковые системы используют специальных роботов – программы, которые отвечают за поиск новой информации и сайтов в интернете.
Оказавшись на вашем сайте, поисковый робот заходит в файл robots.txt, в котором указано, какую информацию показывать, а какую нет.
Игнорирование файла robots.txt либо его некорректное составление — это основная ошибка многих веб-мастеров.
Она влечет за собой следующие проблемы:
-
роботы поисковых систем вообще не будут индексировать сайт;
-
возможна индексация конфиденциальной информации, которая не должна быть доступна в поиске.
Файл robots.txt должен располагаться в корневой директории на сервере.
Способы проверки файла robots.txt
- Ввести в браузере: http://www.site.ru/robots.txt (где site.ru – имя вашего сайта);
- Воспользоваться сервисом «Анализ robots.txt» от Яндекса http://webmaster.yandex.ru/robots.xml;
- Использовать автоматизированные сервисы Rooletka или ROOKEE.
Какие страницы нужно закрывать В ROBOTS.TXT:
- результаты поиска по сайту;
- страницы со входом в CMS;
- страницы-дубликаты
- страницы с логами;
- сервисные страницы с базами данных
- любые другие технические страницы, не несущие для пользователя полезной информации (страницы, находящиеся в разработке и не имеющие текстового контента, страницы авторизации, регистрации и т.п.).