Header image

Создаем инструкции для поисковых систем

Автор: admin Рубрика: Техника и концепты

Существует несколько профильных файлов, которые находятся в теле любого сайта и дают специальные
команды для поисковых роботов. Именно по их командам происходит правильное индексирование веб-
ресурса, оптимизируется скорость доступа к сайту.Такие же файлы нужны и блогу:

Карта сайта (файл sitemap.xml). Для удобства веб-мастеров и поисковых систем был разработан
специальный формат карты веб-ресурса – sitemap. Он выглядит как список ссылок на внутренние страницы
сайта (в нашем случае — блога), предоставляемый в специальном формате XML. Благодаря такому файлу,
блоггер может влиять на приоритет обхода поисковым роботом различных страниц блога. Например, если
какие-то страницы на блоге обновляются чаще, чем другие, следует указать эту информацию – тогда
поисковый робот будет знать заранее, какие документы ему нужно обходить чаще.

Процедура составления своей карты сайта несложна — все параметры и саму ее установку можно легко найти на многих ресурсах
Рунета. Для своего блога я использую плагин Google Sitemap Generator Plugin. Он делает специальный файл
и прописывает его на моем блоге по следующему адресу: http://www.workformation.ru/sitemap.xml


Файл robots.txt. В этом файле укажете параметры индексирования Вашего блога, как для всех поисковых
роботов, так и для отдельных (при необходимости). Задача этого файла заключается в ограничении важных страниц блога от ненужных и мусорных, тем самым корректируется проход поискового робота по сайту при индексировании. Благодаря этому файлу Вы закрываете служебную часть блога, которая не несет полезную информацию пользователям поисковиков. Разделяют основные директивы для этого файла:

- Dissallow (запрет на индексацию). В этой директиве Вы надо указать все те страницы и документы на блоге, которые не нужно видеть поисковым роботам. Например:
- Disallow: /2013/ — запрет на индексацию всех страниц, которые расположены по следующим адресам  www.Ваш_блог.ru/2013/…… В WordPress в такой папке обычно лежат архивы блога.
- Disallow: /category/*/page/ — запрет на индексацию 2-й и далее страниц в любой рубрике блога (для удаления дублей).
- Allow – директива показывает те страницы, которые надо обязательно индексировать. Обычно так делается, если блог содержит ненужный материал. Ели у Вас именно такой случай, то Вы закрываете свой блог от индексации (Disallow: /) и прописываете в Allow только те страницы, по которым хотите видеть пользователей поисковых систем. Но обычно это редкость. Ведь многие блоги всегда интересны людям.

- Sitemap – указывает адрес карты сайта. Если эта директива не указана, то поисковый робот по умолчанию
ищет файл sitemap.xml по адресу www.Вашблог.ru/sitemap.xml

- User-Agent. Указывает имя робота, которому адресована инструкция robots.txt. Например, для робота
Яндекса директива будет следующей: User-agent: Yandex. В этом случае он будет выполнять только свои
директивы. Если же в файле robots.txt нет инструкций для определенных роботов, то для всех создается
общий список правил во главе следующей директивы: User-agent: *

- Host. Указывает основное зеркало блога (с www или без www), по которому будет производиться
индексация. Тем самым убирает частую ошибку блоггеров, у которых блог находится сразу по всем двум
вариантам (с www и без www). Для моего блога эта директива такая — Host: 2inspire.ru

Я рекомендую использовать следующие директивы для Вашего блога:
— User-Agent – для прописывания правил индексирования робота Яндекса (или всех роботов сразу -*);
— Sitemap – обязательная директива – укажите адрес карты Вашего блога;
— Host – обязательная директива для указания главного зеркала Вашего блога;
— Disallow – закройте ненужные страницы блога, которые Вы не хотите показать поисковикам.

Пример:

P.S. Скоро НГ по какому-то календарю и я рекомендую уже приготовить подарки к новому году 2014.

Рекомендуем почитать:

Вы можете следить за комментариями к этой публикации через RSS 2.0 Вы можете оставить отзыв, или трекбек.