По сусекам поскребём, или sCRAPed контент
Для тех, кто пока не сталкивался с таким явлением, как scraping, поясню суть: привлечение посетителей на сайт через поисковую систему - процесс трудоёмкий, а важнейший компонент, благодаря которому сайт поднимается в выдаче поисковика - это качественный, желательно тематический контент. Но откуда взять "тонны" пресловутого контента, тем, кого интересует не создание и поддержание качественного ресурса, а быстрый заработок денег? Качественные сайты наполняются годами, в них вкладываются деньги, время, творческая энергия, масса сил. Для любителей быстрых денег это не вариант, поэтому они просто "грабят" более-менее подходящие статьи с других сайтов, размещают у себя и стараются получить как можно больше прибыли, пока такую помойку не забанит поисковик. Тексты могут быть выдернуты из RSS потоков и просто со страниц сайта, иногда встречается даже полное клонирование ресурса с размещением на клоне рекламы, блоков для продажи ссылок и т.п. То есть по сути - воровство контента и паразитирование на чужом труде, репутации, клиентах. Именно процесс сбора и клонирования контента называется скрэпингом.
Непобедимых, конечно, нет, но...
Кто-то скажет: подумаешь, невелика беда, все в Сети так или иначе воруют тексты. Можно закрывать воришкам доступ с адресов, на которых запущены скрэпинг-боты, можно жаловаться в службу поддержки поисковых систем и такие ресурсы будут убирать из индекса и т.п. Да, всё это можно делать, но это как борьба с Гидрой: одну голову отрубишь - две вырастет. На текущий момент победить скрэперов невозможно, надо принять как данность: явление существует и будет существовать всегда, как ботнеты, компьютерные вирусы и поисковые системы. Вместо того, чтобы тратить время на беспощадную бесполезную борьбу, лучше использовать скрепинг с пользой и наслаждаться жизнью. На данном этапе важно запомнить следующее:
- Как бы не старались скэперы утягивать ваш мегауникальный контент, в абсолютном большинстве случаев это не поможет им поднять позиции своего сайта выше вашего ресурса.
- Более эффективно развивать свой сайт, наполняя его новым и интересным содержанием вместо того, чтобы тратить время на поиск и уничтожение сайтов с утянутым у вас контентом. Скрэперы всегда идут позади вас, пока вы не переключаетесь на борьбу с ними - там они всегда будут на шаг впереди. Не стоит догонять, пусть за вами бегают.
Методы "защиты"
Есть несколько вещей, которые вы можете сделать, чтобы усложнить скрэперам процесс воровства и повернуть его себе во благо.
связывайте ваши статьи перекрёстными ссылками
Если в теле одной из ваших статей содержатся ссылки на другие статьи, то текст, размещённый на другом ресурсе после автоматического копирования, так же будет содержать эти ссылки. Не ленитесь отсылать своего читателя к другим страницам своего сайта просто по ходу повествования, но можно ограничиться и блоком "так же читайте по теме" в конце статьи. Так или иначе, этим нехитрым ходом вы заставляете работать на себя каждую копию ваших трудов в Интернет. Конечно, сей подход неэффективен в том случае, если тексты перед размещением обрабатываются руками, а этого, как мы знаем, скрэперы делать не любят: как и все люди, они ленивы, поэтому предпочитают нагрузить работой компьютер, а не себя. К тому же, подобная линковка статей удобна для пользователей и понижает процент отказов для сайта, что тоже, согласитесь, полезно.
используйте ping-сервисы
Каждый раз когда вы заканчиваете написание статьи и нажимаете на кнопку "Опубликовать", можно автоматически уведомить некоторые поисковые системы и сервисы о том, что у вас на сайте появился новый контент, т.е. автоматически пригласить поисковик для переиндексации сайта. Этот процесс называется Ping. Думаю, даже начинающим СЕОшникам понятно, что это хорошо - чем чаще бот поисковика посещает ресурс, тем лучше для ресурса. Ну а второй полезной особенностью этого процесса будет то, что ваш сайт и его новый контент будет проиндексирован ДО того, как будет украден, т.е. для поисковой системы именно вы будете являться автором новой статьи и именно ваш вариант будет в выдаче выше тех, что появились и были проиндексированы позже
используйте механизмы поисковых систем для указания авторства
На текущий момент это едва ли не единственный способ гарантированно дать знать Google и Яндекс, что именно вы являетесь автором статьи. Как это сделать, можно прочитать в моей статье ""Столбим" авторское право на публикацию".
Используйте "Краткую выдержку" (Excerpt) в RSS потоке
Исходя из простой логики: если грабится не сайт "в лоб", а просто собираются статьи из RSS-ленты, то скрэпер получит лишь краткое описание вашей статьи, а не её целиком, что самым худшим образом скажется на качестве ворованного контента.
Методы "нападения"
Собственно, подходим к сути повествования :) Как известно, из любой ситуации можно извлечь выгоду. Не знаю, как вы, а я всегда стараюсь найти что-то полезное во всём, что происходит вокруг, и скрэпинг не стал исключением.
Что я имею в виду... Представьте, что вы оставили запись (гостевой блоггинг) в каком-либо небольшом блоге, который был "разграблен" скрэперами 20 раз, к примеру. Ссылки из вашего поста, если его никто не сграбил, так и останутся обычными ссылками, хоть и несущими некоторую полезную нагрузку. Теперь же их сила увеличивается пропорционально количеству дублей. Если оставить запись в более авторитетном блоге, который скопировали всего пару раз, вы получите более качественный и трастовый контент с вашими ссылками, но это не так приятно, как иметь массу линков, которые обеспечиает первый случай. Спорю на что угодно, что с точки зрения дешёвого способа наращивания ссылочной массы скрэпинг - ваш новый лучший друг и вы захотите, чтобы боты скачивали ваш контент как можно чаще (если ссылки никуда не пропадают из статей, конечно)!
Из всего вышеописанного вытекает простой вывод: если уж вы всё равно пишете статьи для других ресурсов, выбирайте те, которые скрэпят как можно чаще!
гостевой блоггинг
Гостевой блоггинг - прекрасное средство, чтобы о вас заговорили другие блоггеры (чьи сайты копируют скрэперы ;)), даже если изначально статья была размещена на сайте, контент которого либо вообще никто не дублирует, либо его скрэпили всего пару раз. Пишите интересные статьи со ссылками на свой сайт и размещайте их в различных местах - пусть люди говорят о вас, цитируют вас и всё это копируют скрэперы, тем самым расширяя ссылочную массу вашего ресурса!
публикуйте видео на YouTube
Сам по себе этот всем известный видео-ресурс - один из самых копируемых сайтов в сети. Размещайте свои статьи в виде видеороликов и получайте ссылки не только с самого YouTube, но и с других сайтов, которые утягивают оттуда контент! Пара рекомендаций для получения максимального эффекта:
- Всегда вставляйте в описание видео ссылку на ваш сайт (полную, т.е. вида http://www.вашсайт.ru)
- В таком же виде в описание видео вставляйте ссылку на само это видео ;)
публикуйте статью в RSS-ленте целиком
Да, я противоречу себе. На первый взгляд :) Но ведь раньше мы защищались, а теперь перешли от защиты к нападению! Как вы уже догадались, ссылки из статьи в RSS так же будут многократно скопированы, ведь нам только этого и надо! К тому же, неплохо использовать в шаблоне генератора RSS небольшую добавку к каждой записи, в которой будет присутствовать случайная ссылка со случайным анкором на ту или иную статью с вашего сайта (желательно тематически связанную с вновь публикуемой).
установите контент-трейсер
Часто статьи или их части просто копипастятся, безо всякого скрэпинга, просто потому, что кто-то захотел процитировать ваши золотые слова и не захотел сказать вам "спасибо" в виде ссылки на оригинальный текст. Такое случается сплошь и рядом. Чтобы хоть как-то бороться с "забывчивостью" таких людей, можно воспользоваться небольшой и бесплатной утилиткой Tynt Publisher Tools. Теперь, когда кто-либо будет копировать текст на вашем сайте, к концу скопированного блока будет автоматически добавлена ссылка на оригинал статьи. Ну и при вставке "цитаты" в другую статью, эта ссылка будет присутствовать в тексте. Достаточно удобно ;)
И напоследок я скажу...
Изучая эту тему я понял, что многие авторы статей прилагают немало усилий в борьбе со скрэпингом, стараясь закрыть как можно больше сайтов-дублей. Лично я трачу на это время в двух случаях:
- Если из принадлежащего мне и опубликованного в другом месте текста вырезаны все ссылки на мои ресурсы
- Украденные тексты по какой-то причине находятся в выдаче ПС выше, чем оригинальные
Трэкбэки
Используйте следующую ссылку для трэкбэкинга с Вашего сайта:
http://www.slyder.me/trackbacks?article_id=389





