Технические аспекты индексации сайтов: диагностика, устранение типичных ошибок

Опубликовано: Seonews, Наука о рекламе Advertology

Введение

Традиционно поисковую оптимизацию делят на две большие составляющие: работа над внутренними факторами и работа над внешними факторами. Под внутренними факторами чаще всего понимают оптимизацию самого документа, повышение его релевантности по определённым поисковым запросам. Внешние факторы – это ссылки. Этим аспектам посвящено достаточно большое количество статей и докладов. Однако при таком разделении выпадает из вида одна очень важная составляющая продвижения в поисковых системах – техническая база оптимизируемого сайта. Как ни странно, это та третья сила, которая часто остаётся за кадром, но которая способна свести на нет все ваши работы по оптимизации документов и расстановке ссылок. Если релевантный и авторитетный документ недоступен индексирующему роботу, у него есть дубль, или по какой-то причине в момент обхода робота страница стала отдавать техническую информацию вместо контента, успеха не будет.

Базис оптимизации сайта

Рисунок 1 – Базис оптимизации сайта.

Индексная база поисковых систем растёт с невероятной скоростью (рисунок 2). Уже нет ниш, в которых был бы только один сайт. Главная задача индексирующего робота – занести в базу как можно больше документов. Именно по этой причине индексируются любые страницы, до которых робот может добраться и выкачать. Ему некогда разбираться в том, значимая ли эта страница, что в ней за контент… Уметь правильно проиндексировать сайт, направить индексирующего робота в нужное русло – первоочередная задача любого оптимизатора.

Динамика индексной базы поисковой системы Яндекс

Рисунок 2 – Динамика индексной базы поисковой системы Яндекс.

Не проиндексированный или неправильно проиндексированный сайт невозможно нормально продвинуть.

В данной статье мы рассмотрим 3 основные группы технических ошибок:

  • ошибки во вспомогательных файлах,
  • ошибки, возникающие по причине некорректной работы CMS,
  • технические «недосмотры» оптимизатора.

Ошибки во вспомогательных файлах

К вспомогательным файлам относятся файлы robots.txt и sitemap.xml. Первый отвечает за то, как будут обходить сайт индексирующие роботы различных поисковых систем.

Sitemap.xml – это карта сайта, файл, который содержит полный список страниц сайта. С его помощью можно передать индексирующему роботу поисковой системы перечень адресов, которые надо про- или переиндексировать в первую очередь.

Robots.txt

Robots.txt – очень полезный инструмент, предоставляющий вебмастеру возможность точно определять, какие адреса должны быть проиндексированы роботами различных поисковых систем, как часто можно обращаться к страницам и т.д. Количество настроек, которые можно регулировать путём использования robots.txt постоянно растёт. Так, например, 28 января поисковой системой Яндекс была введена новая директива, позволяющая исключать из URL незначимые cgi-параметры.

Robots.txt – хорошо документированный инструмент для работы с индексацией сайта, однако использование robots.txt не столь широко. По исследованию проведённому InterLabs, только у 49% сайтов из каталога поисковой системы Яндекс есть такой файл. Наличие файла не говорит о том, что он работает. Например, многие вебмастера используют неверные символы комментария. Многие допускают орфографические ошибки в написании директив (рисунок 3).

Ошибки в написании директивы user-agent

Рисунок 3 – Ошибки в написании директивы user-agent.

Проверить корректность robots.txt можно, например, добавив сайт в консоль для вебмастеров поисковой системы Яндекс, а также воспользовавшись документацией поисковых систем.

Sitemap.xml

Многие вебмастера игнорируют файл sitemap.xml. Возможно, ввиду того, что этот инструмент не так давно стал доступен. Это совершенно напрасно. Вот что пишет Яндекс в своей документации:

Обычно робот Яндекса узнаёт о страницах сайта, переходя по ссылкам. В большинстве случаев этого достаточно для полной индексации сайта. Однако, если ваш сайт содержит много динамически создаваемых страниц или же страницы, для попадания на которые требуется много переходов по ссылкам, робот Яндекса может не сразу найти некоторые страницы сайта или неверно определить их важность. Файлы Sitemap помогают решить эти проблемы. Файл Sitemap –- это файл с дополнительной информацией о страницах сайта, подлежащих индексации. С его помощью вы можете сообщить Яндексу, какие страницы вашего сайта нужно индексировать, какие из них наиболее важны, а также как часто обновляется информация на страницах.

Для ускорения индексации новых страниц на сайте необходимо указывать им приоритет индексации равный «1». Фактически это возможность управлять индексным роботом на вашем сайте по вашему усмотрению.

Есть ещё один способ использования sitemap – определение не проиндексированного пула страниц. Обычно оптимизаторы следят лишь за индексацией тех страниц, на которые они «ведут поисковые запросы», однако любая страница с информацией на сайте – это потенциальная точка входа по низкочастотному запросу. Sitemap может помочь в определении таких неработающих, с точки зрения поиска, страниц. Для этого необходимо «наложить» полный список страниц сайта на список страниц, проиндексированных в поисковой системе. Список не проиндексированных страниц отдать на индексацию с приоритетом «1».

Ошибки в движке

Платформы, на которых построены сайты, и серверы, на которых они расположены, достаточно разнообразны. Не стоит надеяться на чудо и ждать, что разработчики позаботились об оптимизаторе и настроили движок и сервер так, как это требуется для поисковых систем. Чаще всего можно столкнуться со следующими ошибками, мешающими индексации сайтов: неверные коды ответа сервера, ошибки .htacess, неверное формирование url, наличие малоинформативных страниц, дублирование главной страницы, дублирование внутренних страниц по разным адресам, ошибки многоязычных сайтов, индексирование результатов поиска, неверная обработка 404 ошибки, ошибки при выводе синонимов

Неверные коды ответа сервера

Первое, что надо проверить, – это коды отклика сервера. Все рабочие страницы должны отдавать код 200 ОК. Все неверные адреса – 404.

Возможен вариант, когда рабочие страницы отдают код 304 (не изменена), но это применяется только на тех сайта, где существует множество внутренних страниц, большинство из которых не обновляется. Самым доступным способом проверить заголовки ответа сервера является сервис be1.ru, вкладка Header.

Ошибки в .htaccess

Файл htaccess является файлом конфигурации сервера. В частности средствами этого файла определяется, как сайт будет открываться: с www перед доменным именем или без указания этой папки. Часто встречается ситуация, когда после переноса сайта на новую CMS, в htaccess указывается, что сайт, например, должен открываться только с www. При этом все адреса без www возвращают заголовок ответа сервера 301, а главным зеркалом в поисковой системе Яндекс является домен без www. В результате все проиндексированные документы с сайта будут исключены из индекса поисковой системы, а новые не будут проиндексированы, так как принадлежат второстепенному зеркалу. Результата удачной переклейки зеркал придётся ждать достаточно долго.

Самым лучшим вариантом настройки файла htaccess является разрешение открывать сайт как с www, так и без www.

Неверное формирование URL

Часто встречаются CMS, которые для маркировки пользователя добавляют к url дополнительный параметр: «идентификатор сессии» (рисунок 4, 5, 6). Этот маркер – частный пример параметров, из-за которых на сайтах формируется большое количество страниц с дублирующим содержимым.

Идентификатор сессии в URL

Рисунок 4 – Идентификатор сессии в URL

Случайный идентификатор сессии в URL

Рисунок 5 – Случайный идентификатор сессии в URL

Оригинальная страница, без идентификатора сессии в URL

Рисунок 6 – Оригинальная страница, без идентификатора сессии в URL

Обратите внимание, на всех представленных выше рисунках (рисунки 4, 5, 6) приведена одна и та же страница, но при этом она может иметь фактически бесконечное множество различных URL. А значит, для индексирующего робота каждая такая страница будет уникальной.

Это может негативно отразиться на сайте, так как существует квота на максимальное количество страниц, проиндексированных роботом за один сеанс. Таким образом, новые страницы могут не проиндексироваться, так как робот до них не дойдёт, исчерпав выделенную квоту при обходе одинаковых страниц.

Для решения подобной проблемы необходимо пользоваться возможностью файла robots.txt. В частности параметром clean-param, который позволяет исключать из url незначимые cgi-параметры.

Наличие малоинформативных страниц

К незначащим параметрам можно отнести некоторые значения, которые отвечают за особенности вывода контента. В частности, таким параметром является сортировка. Часто встречается ситуация, когда содержимое каталога можно отсортировать, например, по цене, производителю или по другим характеристикам позиции (рисунки 7, 8).

Сортировка списка альбомов по исполнителю

Рисунок 7 – Сортировка списка альбомов по исполнителю

Сортировка списка по названию альбома

Рисунок 8 – Сортировка списка по названию альбома

Каждый вид сортировки, для индексирующего робота поисковой системы будет представлять собой уникальную страницу. В результате, если вы будете продвигать основную страницу каталога, то не исключена вероятность того, что вместо продвигаемого url, поисковая система изберёт главным дубликатом какой-либо вариант сортировок.

Решением этой проблемы является использование параметр clean-param в robots.txt (если позволяет формат url), либо запрет к индексации всех страниц, имеющих определенные префиксы либо постфиксы.

В следующем примере показана более опасная ошибка. Как известно, 100% надёжных хостинговых площадок не существует. В случае неработающего хостинга, страницы удаляются из базы не сразу, а по истечению некоторого количества обращений к сайту. Если возникает ошибка соединения с базой данных (рисунок 9), то выводятся страницы, на которых нет вашего контента, а представлена техническая информация об ошибках в БД. Эти страницы индексируются роботами поисковых систем, так как контент отличается от того, который был ранее представлен на страницах. После того, как робот переиндексирует такие страницы, вы можете значительно потерять в поисковом трафике, особенно если придерживались тактики продвижения по большому спектру низкочастотных запросов. Единственным способом решения является кеширование страниц и проверка доступности базы данных или контрольной суммы перед формированием страницы.

Вывод ошибок работы с базой данных

Рисунок 9 – Вывод ошибок работы с базой данных

Есть ситуации, когда неработающий хостинг – не самое плохое, что может случиться. К таким ситуациям относится, например, неработающий SQL сервер.

Дублирование главной страницы

Многие CMS устроены так, что к главной странице можно обратиться не только по адресу корневой папки, но и по адресу типа index.php или index.htm. В таком случае возможно определение такого адреса в качестве адреса главной страницы. Такие страницы надо закрывать в robots.txt.

Дублирование внутренних страниц по разным адресам

Эта ошибка свойственна сайтам на Joomla (однако, не только им). Если установлены ЧПУ, то открывается одинаковая страница как со слешем на конце, так и без слеша (рисунки 10, 11). Решение этой проблемы зависит от тонкостей конкретного движка, но чаще всего решается корректировкой htaccess. К этому же классу проблем можно отнести ситуацию, когда документ может быть открыт как по адресу с htm, так и с html и php.

Страница, имеющая последним символом /

Рисунок 10 – Страница, имеющая последним символом /

Страница, не имеющая последним символом /

Рисунок 11 – Страница, не имеющая последним символом /

Ошибки мультиязычных сайтов

Часто на сайтах есть версия для пользователей из других стран. Если вы столкнулись с мультиязычным сайтом, то обязательно проверьте, чтобы для каждого языкового раздела был написан собственный уникальный контент. Часто бывает так, что при написании технического задания заказчик вкладывает в сайт максимум функций, но после сдачи проекта сайт не наполняется, и в каждом разделе выводятся одни и те же русскоязычные тексты.

Этого нужно обязательно избегать, чтобы не плодить дубликатов страниц и тем самым обезопасить себя от неправильного избрания главного из нескольких дублирующихся документов.

Индексирование результатов поиска

Это одна из самых распространенных ошибок. Результаты поиска по сайту открыты для индексации роботами поисковых систем (Рисунок 12). Страницы не закрыты в robots.txt и отдают код ответа сервера 200. При этом для каждого поискового запроса формируется уникальный url.

Результатом этого является то, что в индексе поисковых систем появляется множество страниц, дублирующих основной контент. Это является прямым нарушением лицензии на поиск поисковой системы Яндекс. Благодаря тому, что страницы поиска открыты для индексирования, ваш сайт может быть исключен из индекса поисковых систем с формулировкой санкции:

После анализа и классификации страниц Вашего сайта наши алгоритмы приняли решение не включать его в поиск. Это может быть вызвано неуникальностью информации, использованием поискового спама или тем, что многие страницы сайта созданы автоматически и не предназначены для чтения пользователями.

Все страницы с результатами поиск надо закрывать от индексации в robots.txt

Неверная обработка 404 ошибки

Все несуществующие страницы должны отдавать 404 код ответа сервера. На рисунке 12 приведен пример ошибки на крупнейшем автопортале России. Какой бы адрес вы не придумали, открывается страница с кодом ответа сервера 200. Яндекс проиндексировал около 3000 страниц «страница не найдена» на сайте auto.ru. Появление таких страниц нужно регулярно отслеживать в индексных базах поисковых систем. Самый лёгкий вариант – разместить в шаблоне страниц, которые не должны индексироваться, определенные маркеры.

Неверная страница ошибочного адреса

Рисунок 12 – Неверная страница ошибочного адреса

Ошибки при выводе синонимов

Эта ошибка свойственна сайтам, разнесённым на несколько доменов. Например, когда разные подразделения компании имеют своё уникальное доменное имя. Ввиду того, что обычно такие сайты строятся на единой CMS, url имеют общие принципы построения. Необходимо очень внимательно проверять, чтобы одни и те же позиции не открывались на всех сайтах. Пересечение контента в этом случае может привести к санкциям. В частности, в поисковой системе Яндекс большая часть доменов может быть исключена из результатов поиска, так как они будут признаны афилироваными.

Другие ошибки

В этом разделе статьи мы собрали наиболее частые ошибки, которые происходят по «недосмотру» оптимизатора. Чаще всего к ним относятся: одинаковая мета-информация на большом количестве страниц, открытые серверные логи, нагрузочные ошибки, большое количество внешних ссылок.

Одинаковая метаинформация

Каждая страница на сайте должна иметь уникальный заголовок (мета-тег title), который описывал бы конкретную страницу. Не рекомендуется использовать одни и те же заголовки для всех страниц сайта. Прописав уникальные заголовки для большей части страниц (часто это решается прописыванием правил формирования заголовков в CMS), вы обеспечите себе хороший приток целевых пользователей по низкочастотным поисковым запросам. Но главное, Вы уменьшите вероятность попадания в выдачу «непродвигаемой» страницы (страницы, которая может не иметь внешних ссылок, но быть признанной более релевантной), т.е. снизите возможность внутренней конкуренции.

Открытые серверные логии

Часто хостеры ставят бесплатную систему статистики, например, webalizer. Если индексирующий робот получает ссылку на статистику вашего сайта, он начинает активно индексировать страницы со статистическими данными. Тем самым значительно увеличивается количество неинформативных страниц, проиндексированных на вашем сайте. Возникают проблемы со скоростью индексации нового контента, так как страницы с серверными логами обновляются ежедневно, а значит, индексирующие роботы будут обращаться к ним в первую очередь.

Нагрузочные ошибки

Часто случается такая ситуация, что индексирующий робот поисковой системы сильно нагружает сайт. Если представители хостинга лояльно относятся к большому числу запросов с ip адреса поисковой системы, то движок сайта может этого не выдержать. Решением в этой ситуации может быть использование директивы crewl-delay в robots.txt или же передача индексирующему роботу исключительно закешированных страницх, генерирование которых не вызывает нагрузок.

Примером высокой нагрузки на сайты является робот поисковой системы webalta, который настолько сильно нагружал сервера, что многие оптимизаторы просто закрывали свои сайты для индексации этим роботом.

Большое количество внешних ссылок

Часто бывает так, что на сайте есть большое количество исходящих ссылок. В исходящих ссылках нет ничего страшного, однако следует понимать и видеть грань между спамом и разумным кол-вом ссылок. Нужно знать каждую из ваших внешних ссылок. Есть два решения данного вопроса. Первое – посмотреть в live.com, воспользовавшись запросом linkfromdomain. Вторым способом является проверка всех страниц каким-либо десктопным приложением. В частности, удобным решением является программа xenu.

Заключение и выводы

Постоянный мониторинг – залог успеха

Из всех перечисленных ошибок большинство достаточно решить один раз, чтобы больше они не мешали. Но забывать о потенциальной возможности их появления не стоит. Есть такие ошибки, которые могут появляться вновь и вновь: Коды ответа сервера могут измениться после обновления ПО на хостинговой площадке, малоинформативные страницы могу появиться во время неполадок или обновлении версии движка, в индексной базе могут постоянно появляться страницы с неверными адресами, могут появляться новые внешние ссылки в результате спамерской активности и пр... Идеальный вариант – проверять всё перечисленное в автоматическом режиме и получать извещения об изменениях.

Выводы

  1. Релевантный и авторитетный документ не будет находиться поисковиками, если техническая база сайта будет иметь ошибки, мешающие и путающие индексирующий робот.
  2. Существует возможность управлять индексацией: robots.txt, sitemap.xml. Необходимо знать все возможности этих инструментов.
  3. Индексировать нужно только значимый для пользователя контент. Дубли, техническая информация, пустые страницы должны быть исключены из области индексации, если нет возможности избежать их наличия на сайте.
  4. Все три группы ошибок (ошибки во вспомогательных файлах, ошибки, возникающие по причине некорректной работы CMS и технические «недосмотры» оптимизатора) должны быть устранены и проверены до непосредственного поискового продвижения.
  5. Необходим постоянный мониторинг технических ошибок. Желательно, чтобы он проводился в автоматическом режиме.

Олег Сахно
Евгений Селин