30 Сентябрь

Дубли страниц сайта, или минус 3 000 000 рублей прибыли

0048_logoКейсы бывают разные. А как известно, двойка – тоже государственная оценка. Сегодня мы будем говорить про дубли страниц сайтов, о том какие негативные последствия могут быть, о том, как проверить сайт на наличие дублей как с этим бороться.

Начнем с невеселой истории, которая произошла с одним из клиентов не так давно, в этом году. Естественно, история связана с дублями станиц сайта, который является наиболее мощным каналом продаж для клиента.

Дубли страниц ценой в 3 000 000 рублей

Итак, кратко суть. Есть очень умный клиент, который постоянно занимается развитием своего сайта, т.к. реально понимает, что без сайта его бизнес проживет может быть и долго, но по утрам придется на хлеб мазать не икру, а паштет. Человек занимается бизнесом более 7ми лет, и сайт соответственно имеет возраст, траст. Думаю, ни для кого не новость, если сайтом заниматься постоянно, то за семь лет сайт обрастет контентом, ссылками, а главное трафиком.

Два-три раза в год клиент приходит к нам и говорит: надо поднимать трафик, давайте думать, как это сделать. Мы предлагаем варианты, получаем деньги за свой труд. А клиент пропадает на несколько месяцев, занимаясь внедрением того, что мы совместно на придумывали.

У клиента сезонный бизнес, наиболее жаркими являются 3 летних месяца. И вот, в начале сентября приходит клиент и говорит: плохой сезон, хуже предыдущего. Я сильно удивляюсь, т.к. на протяжении трех лет мы показывали стабильный рост от сезона к сезону. Причем рост был не меньше 30%. Начинаем разбираться, и видим вот такой график:
0049

Это трафик с поиска за текущий сезон. Начинаем смотреть, что творилось со спросом на рынке. Не сложно проанализировать и построить достаточно точный график. Вот как должен был выглядеть трафик, если опираться на историю из Яндекс.Директа:
0050

Понимаем, что картина резко отличается от нашей, начинаем разбираться. В результате приходим в выводу, что клиент для улучшения конверсии попросил программистов сделать несколько дублей страниц, на которые, естественно за 7 лет сайта проставлена куча ссылок. Сразу возникает вопрос: а как дубли страниц сайта попали в индекс? Ссылки ведь стоят на основные страницы? Оказывается на дубли наш клиент успешно лил трафик на протяжении всего сезона с систем контекстной рекламы. И качество этого трафика было весьма неплохое, а пользователь проводил на этих страницах кучу времени. В результате Яндекс дубли страниц добавил в индекс и стал пытаться их ранжировать. Естественно, ранжирование было неверным. А значит мы получили просадку по огромному ядру запросов, падение трафа. Чтобы понимать объемы, речь идет о том, что сайт выпал из топ10 Яндекса по более чем 2 000 запросов.

Проблему мы исправили, т.к. бороться с дублями умеем. Но давайте разберемся в сути. С клиентом мы прикинули, что при самом плохом конверте, он зарабатывает 30 рублей с одного юзера, пришедшего с поиска на сайт. Зная как менялся спрос, мы можем построить график, на котором по месяцам будет просчитан упущенный трафик. Это трафик, который клиент должен был получить:
0051

Сложив цифры за 3 месяца, мы поняли, что недополучили 92 000 хостов. Умножив заработок на каждом посетителе на количество посетителей, можно уверено сказать, что клиент недополучил минимум 2 760 000 рублей прибыли! И это при самом плохом конверте. Именно столько стоила ошибка: если бы клиент пришел в мае и попросил проверить, все ли ок, мы бы легко устранили дубли страниц с сайта.

Ну а теперь давайте поговорим про типовые дубли, их поиск, закрытие.

Какие внутренние дубли страниц сайта бывают?

Дубли делятся на два больших класса: четкие и нечеткие дубли.

Четкие дубли страниц – это на 100% идентичный контент страницы, доступный по разным адресам на одном сайте. Наиболее часто четки дубли появляются я в случаях если:

  1. Страницы сайта доступны по двум адресам с www и без. Например, site.ru и www.site.ru
  2. Страницы сайта доступны по двум адресам со слешем и без на конце. Например, site.ru/page и www.site.ru/page/
  3. В адресах сайта есть дополнительные параметры, например, идентификаторы сессий: site.ru/page/ и site.ru/page/?sid=2345sdfsd345
  4. Главная страница сайта доступна по нескольким адресам. Например, site.ru, site.ru/index.php, site.ru/index.html.

Нечеткие дубли – это страницы, которая поисковая система считает дублями из-за части одинакового контента на страницах. Эта ситуация чаще всего возникает из-за:

  • малого количества основного контента и большой навигационной части дизайна.
  • кусков основного контента, который повторяется на разных страницах.

Чаще всего нечеткие дубли страниц не страшны. Поисковая система такие страницы считает не значимыми и не пускает их в индекс. То есть мы сталкиваемся с проблемой, например, когда каталог товаров не попадает в индекс. Да, это тоже проблема, причем достаточно серьезная, но о ней стоит говорить отдельно, т.к. здесь уже встает вопрос уникализации контента для поисковой системы. То есть надо убедить поисковик, что информация на страницах вашего сайта ценная и ее надо добавить в индекс.

Дальше речь пойдет именно о четких дублях.

Как найти дубли страниц на сайте?

Существует несколько простых, но очень кропотливых методик поиска внутренних дублей страниц:

  1. Просмотр результатов поиска по сайту у какой-либо поисковой системы. Для этого в поисковую строку вбивается конструкция:
    • site:mysite.ru -site:mysite.ru/& (для поисковой системы Гугл)
    • site:site.ru (для поисковой системы Яндекс)

    Далее нужно руками смотреть, какие страницы есть в индексе поисковой системы, стараясь найти страницы, которых там быть не должно.

  2. Можно руками вводить в строку поиска куски текста, смотреть какие страницы вашего сайта находятся в индексе. Если страниц с введенным текстом больше одной, велика вероятность, что вы видите дубли, с которыми надо что то делать.
  3. Существует программа Xenu, которая занимается сканированием сайта, в результате вы видите список страниц, которые можно отсортировать, например по тегу Title. Тем самым можно выявить страницы с одинаковыми титлами будут сгруппированы. Вам станет ясно, какие группы страниц представляют из себя потенциально дубли для поисковых систем. Надо понимать, что этот метод не совсем верен, т.к. вы сканируете сайт, а не индекс поисковой системы. Но методика позволяет на начальном этапе, даже когда сайт не проиндексирован, постараться избавиться от дублей.
  4. В продолжение разговора, в вебмастере Гугла есть хороший инструмент, который показывает страницы с одинаковыми тегами title и метаданными. Попасть на эту страницу можно, зайдя в Гугл.Вебмастер, в раздел Вид в поиске, подраздел Оптимизация HTML:
    0052
  5. Кроме того, у Гугла есть всеми нелюбимые сопли. Соплями называются дополнительные результаты поиска по сайту. То есть это те страницы, которые Гугл по каким-то причинам не хочет показывать в результатах поиска. Проанализировав данные результаты так же можно найти много интересного мусора, который генерирует движок сайта.
    0053

Как удалить дубли страниц сайта?

Отвечая на данный вопрос, я обозначу лишь методы, которыми решается вопрос с дублями. Подробно описывать я их не буду, т.к.:

  1. Не профессионалу лезть и самому исправлять такие вещи может быть опасно. Проще обратиться к знающим людям, грамотного специалиста найти не проблема.
  2. Существует много вариаций для решения задачи тем или иным методом. Каждый случай индивидуален, поэтому не буду пытаться объять необъятное.

Итак, поиск дублей страниц выполнен, пришло время борьбы. Нужно удалить дубли страниц с сайта. И тут нас постигает первое разочарование. Если мы хотим удалить дубли, то надо переписать движок сайта, а это дорого и долго. Но есть и хорошая новость: дубли можно удалить из поисковой системы.

Как же поисковую систему заставить индексировать наш сайт правильно, без дублей.

  1. Канонические урлы. Необходимо шаблоны сайта изменить так, чтобы поисковая система сканировала все страницы сайта, включая дубли, а в индекс добавляла только нужную нам страницу. Для этого необходимо на страницы-дубли добавить в раздел head тег link, в котором прописать канонический адрес.

    Например, у нас есть две страницы, site.ru/ и site.ru/aaa. Причем вторая страница является дублем первой. Для этого на странице site.ru/aaa добавить тег

    < link rel="canonical" href="http://site.ru/" >

  2. Очень мощным методом являются редиректы. То есть мы с дубля ставим редирект на основную страницу. Яндекс приходит на дубли, видит редирект и склеевает дуль страницы с основной. Чаще всего используется 301 редирект, а настройка делается сразу для целых групп страниц с помощью прописывания специальных инструкций в файле .htaccess
  3. Еще одним распространенным методом является запрет индексации определенных групп страниц или разделов с помощью файла robots.txt
    Например, у нас есть две страницы, site.ru/ и site.ru/aaa. Причем вторая страница является дублем первой. В файле robots.txt добавляем директиву Disallow: /aaa и дело в шляпе.

Важно! Чтобы Яндексу помочь, то есть ускорить решение проблемы с дублями страниц сайта, можно воспользоваться страницей для удаления адресов страниц из индекса: http://webmaster.yandex.ru/delurl.xml. Важно, чтобы удаляемые страницы были закрыты в файле robots.txt или отдавали код ответа 404. Аналогичный инструмент есть и в панели для вебмастеров от Гугла. Его можно найти в разделе Индекс Google в подразделе Удаление URL-адреса:
0054

На этом наверное все, будут вопросы – задавайте, есть сложные задачи – показывайте – будем решать.

Полезные ссылки:

  • http://help.yandex.ru/ — Подробный мануал по работе с robots.txt от Яндекса. Стоит напомнить, Яндекс имеет инструкции, которые не читает Гугл.
  • http://designn.pp.ua/ подробная информация по директивам, на случай, если вы будете сами править файл htaccess.
  • http://blogerator.ru/ — практические примеры по работе с файлом htaccess.
  • http://comp-on.ru/ — типовые проблемы с дублями и их решения, структурировано и доступно.
  • http://www.sembook.ru/ — статья про дубли от Ингейта, как всегда весьма развернуто, легко читаемо и полезно. Кстати говоря, весной покупал несколько Энциклопедий поискового продвижения, когда курьер приехал, на моем лице было удивление: он привез большую коробку. Оказалось Ингейт выпустил действительно энциклопедию, размер книги сравним со словарем Ожигова, а качество печати очень приятно удивило. Одну книжку даже себе решил оставить – очень понравилась.

Как показывает практика, в сети очень мало движков, которые получили широкое распространение. Все эти движки сайтов имеют дубли страниц, и все вы их знаете:

Пиастры за контекст на бутылку рома – отчет № 2Усиление ссылок трафиком
Пиастры за контекст на бутылку рома – отчет № 1Пиастры за контекст на бутылку рома
tw
Подпишись на новости:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>