Основы SEO

Robots.txt и .htaccess — что это такое?

Одним из нюансов успешной оптимизации сайта является правильное использование файлов robots.txt и .htaccess. Многие не придают значения данным файлам, а зря – они помогают избежать многих проблем при дальнейшем продвижении.

robots.txt позволяет управлять индексацией, разрешая и запрещая поисковым роботам посещать те или иные разделы сайта, страницы и документы. С помощью .htaccess возможно задать основное зеркало сайта, настроить редирект и т.п. В основном все это делается для закрытия от индексации дублирующего контента.

robots.txt

Файл robots.txt используется для того, что бы определить правила поведения на сайте поисковых роботов и влиять на индексацию сайта. Данный файл является обычным текстовым документом, который можно создать и редактировать при помощи любого текстового редактора. Поисковый бот в первую очередь будет искать файл robots.txt в корне сайта и если не найдет, будет сканировать все его содержимое. Посмотреть, как выглядит файл, можно набрав в адресной строке адрес http://адрес_сайта.com/robots.txt, конечно, если он существует. Вот как выглядит данный файл на этом блоге – https://seozona.net/robots.txt.

У файла robots.txt существует собственный синтаксис, позволяющий запрещать или разрешать роботам индексировать разделы сайта.

Основные директивы robots.txt

User-agent – директива указывает какому роботу принадлежит секция. Например User-agent: Googlebot указывает, что секция создана для краулера Google, User-agent: Yandex — для Яндекса, User-agent: * – для всех роботов.

Также существуют дополнительные роботы, такие как:

  • Googlebot-News — для поиска новостей;
  • Mediapartners-Google — для сервиса AdSense;
  • AdsBot-Google — для проверки качества целевой страницы;
  • YandexImages — индексатор Яндекс.Картинок;
  • Googlebot-Image — для картинок;
  • YandexMetrika — робот Яндекс.Метрики;
  • YandexMedia — робот, индексирующий мультимедийные данные;
  • YaDirectFetcher — робот Яндекс.Директа;
  • Googlebot-Video — для видео;
  • Googlebot-Mobile — для мобильной версии;
  • YandexDirectDyn — робот генерации динамических баннеров;
  • YandexBlogs — робот поиск по блогам, индексирующий посты и комментарии;
  • YandexMarket— робот Яндекс.Маркета;
  • YandexNews — робот Яндекс.Новостей;
  • YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы;
  • YandexPagechecker — валидатор микроразметки;
  • YandexCalendar — робот Яндекс.Календаря.
Читайте также:  Можно ли продвинуть сайт при минимальном бюджете?

robots.txt

Allow – директива разрешает роботу индексировать определенный раздел сайта.

В данном случае всем роботам разрешено просматривать страницы, которые начинаются с /category, а весь остальной контент запрещено.

Disallow – директива запрещает боту индексировать раздел, статью и т.д.

В таком случае поисковым роботам запрещено сканировать URL site.com/private-page.php

Если необходимо запретить сканирование всего сайта (например вы только начали его разрабатывать, и не хотите что бы он в таком виде попал в индекс) то необходимо использовать такой вид:

Если необходимо поисковому роботу запретить сканировать все файлы, определенного расширения, то в файле robots.txt должна быть запись такого вида:

Это запретит индексирование всей файлов на сайте с расширением .png

* (звездочка) заменяет любую последовательность символов.
$ (знак доллара) означает конец строки.
Важно помнить, что правила Allow и Disallow сортируются по длине префикса URL (от меньшего к большему) и роботы учитывают в первую очередь директивы стоящие выше в секции.

Например:

В данном случае сначала запрещен к индексации раздел /dom/, а затем разрешена страница okna.html. Страничка так же, как и весь раздел не будет индексироваться потому, что разрешающая директива стоит ниже запрещающей. Если мы хотим, что бы страница okna.html индексировалась, то правильный robots.txt должен выглядеть так:

Sitemap – директива указывает местоположение sitemap.xml. Инструкция должна быть правильно вписано в файл:

Читайте также:  Оптимизация страниц сайта + seo статьи = успех

Host – директива применимая только в секции робота Яндекса, указывает основное зеркало сайта. Например:

Если сайт использует протокол HTTPS — тогда запись должна начинаться с него, как в примере, если же сайт на HTTP, то прописывать приставку http:// нет необходимости.

Так же существуют другие директивы для robots.txt такие как Crawl-delay и Clean-param, но используются они крайне редко и, поэтому, рассматривать их не будем.

Где проверить файл robots.txt

Для  того, что проверить валидность файла robots.txt можно воспользоватся панелью вебмастеров Google и Яндекс. Просто вводите содержимое файла robots.txt в форму по ссылке и указываете свой сайт.

Важно: Директивы файла robots.txt являются лишь рекомендациями для поисковых роботов и не дают гарантий того, что та или иная страница, которая закрыта для индексации в robots.txt, не будет проиндексирована и не будет добавлена в индекс.

.htaccess

.htaccess — файл дополнительной конфигурации веб-сервера Apache, позволяющий задавать огромное количество различных дополнительных параметров и разрешений для работы сервера в отдельных каталогах.

Как его использовать для SEO?

При оптимизации .htaccess в основном используют для склейки доменов, 301 редиректа со старых адресов, создания ЧПУ и для уведомления о том, что страница не существует (404 ошибка). В большинстве современных CMS настроена 404 ошибка и имеется возможность включить ЧПУ в системе управления сайтом, поэтому расскажу только о том, как склеить домены.

Для начала нам необходимо скачать с сервера сам файл .htaccess с помощью любого FTP-клиента (FileZilla, Totall Commander и др.) Файл является системным и по этому может не отображаться в директории. Для этого включаем функцию «Принудительно отображать скрытые файлы» в клиенте. После того, как мы скачали данный файл, приступаем к его редактированию при помощи обычного текстового редактора.

Читайте также:  Какой должна быть «правильная» seo статья?

Для редиректа с адреса с www на без www прописываем:

Для редиректа с без www на с www:

У сайта обязательно должно быть 1 основное зеркало. С www или без www. Если сайт одинаково доступен по www и без www то поисковики будут считать их разными сайтами, а отсюда дубли страниц и пессимизация в поисковой выдаче.

Теги

Похожие записи:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *