Robots.txt – это файл с текстовой информацией, позволяющий ограничивать поисковым системам доступ к контенту ресурса на любом HTTP-сервере. Если говорить более специализированным языком, то Robots.txt – это лишь правило исключения для системы поиска, данный файл был разработан в январе 1996 года. Множество ресурсов по-прежнему используют данный стандарт.
К основному, составляющему Robots.txt, относится набор инструкций, предназначенный поисковым системам, - при помощи таких инструментов владелец ресурса вполне способен запретить индексацию указанных материалов, страниц, а также каталогов сайта. По умолчанию программный код ведёт себя следующим образом: Выводится две командной строки – User-agent со значением «*», и Allow – «/». Данные строки обозначают, что источник работает без ограничения доступа поисковым системам. Помимо этого вышеприведённые строки полностью разрешают работать с индексацией ресурса.
Для того, чтобы начать работу с Robots.txt веб-разработчик обязан воспользоваться корневым каталогом сайта и загрузить в него .txt файл. В результате сайт будет иметь следующий URL-адрес – название пользовательского ресурса.ru/robots.txt. Опытные разработчики знают, что для загрузки в корневой каталог данный файл, необходимо применить протокол FTP. Но, если владелец создал персональный ресурс при помощи CMS, то ситуация значительно упростится. В таком случае можно перейти в панель управления в своей CMS-платформе и начать пользоваться встроенным FTP-менеджером. Для проверки работоспособности файла Robots.txt владелец может воспользоваться адресной строкой текущего браузера.
Во время работы с текстовым файлом не знающие люди задают вопрос для чего используется Robots.txt. Прежде всего – это важный аспект по оптимизации ресурса. Сразу стоит отметить, что Robots.txt предельно сильно упрощает работу с индексацией страниц, которые вовсе не обладают полезной информацией. На самом деле файл с расширением .txt иногда можно не использовать. Но если пользователь решил, или подразумевает исключить определённые страницы источника из вида поисковых систем, то Robots.txt нужен. Небольшие сайты, имеющие стандартную структуру или страницы вовсе статичны, то тогда Robots.txt абсолютно не нужен. Предельно редко можно встретить небольшие проекты, но с особыми директивами Robots.txt, к примеру – Host, а также наиболее с директивой Sitemap.
Указать главное зеркало сайта и ссылку на его карту в xml формате:
Host: http://ваш_сайт.ru
Sitemap: http://ваш_сайт.ru/sitemap.xml
Запретить индексирование директорий:
Disallow: /signup/
Disallow: /login/
Запретить индексирование любых ссылок, которые заканчиваются запросом /?sort
Disallow: */?sort