Основы дорвеестроительства – цепи Маркова

Решил наконец-то сделать пост на тему, отличную от ассемблера :)
Сейчас я расскажу про вещь, которая используется для генерирования текстов дорвеев. Материал, вероятно, будет интересен только новичкам seo.

P.S. Сразу скажу – Kaimi сделал для своего патчера на Perl’е свежие сигнатуры, и, чтобы не плодить лишних постов, попросил выложить их прямо здесь.

Не буду углубляться в теорию, сразу перейду к практической части. Допустим, у нас для генерирования контента дорвея имеется следующий текст:

Вася вошел в помещение. Нож вошел в масло и разрезал его пополам. Петя купил масло и сливки. В помещение завезли товар.

Необходимо этот текст как-то перемешать, чтобы связи между словами более-менее сохранились, после чего начинить его ключевыми словами со ссылками.

Каким образом можно хорошо перемешать текст? С помощью цепей Маркова. Для их генерации я написал простенький скрипт на php. Поясню, как это работает. Для написанного выше текста можно составить следующее дерево:

Все предложения из текста записаны сверху вниз по словам. Я специально выбрал такие предложения, чтобы имелись некоторые пересечения – они и необходимы для перемешивания текста. Собственно, это и есть цепи Маркова. Они кстати бывают разных уровней. Мой скрипт поддерживает перемешивание текста на основе цепей 2-го и 3-го уровней. Цепь второго уровня – когда каждое слово в тексте зависит от предыдущего. Цепь третьего – когда слово зависит от двух предыдущих и т.д.

Соответственно, текст перемешивается, когда в точках пересечения (см. рисунок) последующее состояние из всех допустимых выбирается случайным образом. Скажем, вместо «Вася вошел в помещение» может быть составлено предложение вроде «Вася вошел в масло и сливки» (опять-таки, см. рисунок).
Визуально предложение составлено правильно, но смысла при этом не имеет никакого. Остается просто начинить его ключевыми фразами (как это делать, в этой статье я описывать не буду).

Собственно, вот скриншот работы скрипта генерации с некоторым анализом полученного текста:
Цепи третьего уровня:


Цепи второго уровня:


Как видно, при использовании цепей третьего уровня получается более связный текст, но замен в итоге меньше (они выделены жирным). При использовании цепей второго уровня текст менее связан, зато мы имеем хорошо перемешанный треш. Чем выше используемый уровень, тем больший объем текста необходим для создания хорошо перемешанного уникального контента.


Сам скрипт можно скачать тут: ZIP.

PS. Скрипт очень простой, для демонстрации, много чего не обрабатывает, поэтому могут при генерации возникать некоторые косяки в тексте.

Помните - сейчас настолько простые дорвеи давно вычисляются поисковиками с помощью специальных алгоритмов и просто-напросто отфильтровываются из поискового контента, даже если у вас текст сверхначинен ключевыми фразами. Данная статья, соответственно, показывает один из простейших вариантов получения более-менее уникального текста без особых усилий, но не надейтесь, что это как-то поможет вам в практическом применении в SEO. Материал может пригодиться только для обучения.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *