Контент. Часть 1-ая или с чем мы боримся.


Всем привет. Дабы каждый раз не представляться, решил создать отдельного пользователя, думаю, так будет удобнее :)

Сразу же после анонса конкурса, стали появляться комментарии в которых народ требовал интересных записей,  а не шанс получить консультацию. Изначально очень стремало, что в друг напишу не то, что интересует общественность, скажем так. Но затем получил несколько комментов касательно вопроса генерации текста, и понял, что данная тема интересует практически всех.

Нелогично было бы пытаться осветить все тонкости данного вопроса в одной статье (пусть даже и большой), и именно поэтому я открываю первый цикл статей на этом блоге – о контенте.

Как вы уже наверное поняли, в этой статье я попытаюсь рассказать, с кем (чем?) мы сражаемся. Понятное дело, что с Яндексом, но давайте углубимся в этот вопрос.

Мы имеем потенциально генерируемый контент, который должен без особых проблем пройти если не все, то первичные проверки Яндекса, что может встать у нас на пути?

Первым делом, это так называемые статистические  законы.

1. Закон Зипфа

Закон Зипфа – это закономерность распределения слов в тексте. Если коротко, то это значит что слова «очень», «каждый», «было» встречают в тексте гораздо чаще, чем слова «параллелограмм» или «микробиология». Нелепый пример, но суть ясна. Подробнее читайте по ссылке.

Даже более. На основе этой закономерности, Яндекс довольно легко сможет определить тематику вашего сайта, т.к. они имеет весьма обширную базу текстов различной тематики для анализа, и сопоставить результаты проверки вашего текста с эталонами разных тематик не так уж и сложно.

Вывод:

Стоит себе уяснить, что для генераторов, пишущих текст с нуля, полный рандом не покатит. А вот для специфических алгоритмов перемешивания – вполне.

2. Частотность словосочетаний или Закон Зипфа второго  порядка.

Законом Зипфа второго порядка такую закономерность вряд ли кто называет, но назвать это как-то надо было. И так, в чем суть. Для анализа вашего текста, Яндекс использует все те же эталоны, но проверяет не отдельно взятые слова, а словосочетания. Рассмотрим данную закономерность на примере слова «красивый».

В одном из эталонных текстов это слово встречается, допустим, 17 раз.

4 раза красивым окажется сад – красивый сад

3 раза красивым окажется парень – красивый парень

3 раза красивым будет стол – красивый стол

3 раза красивым будет гол – красивый гол

2 раза красивым будет сервиз – красивый сервиз

и лишь по одному разу будут красивыми пёс и бюст.

Что мы можем получить используя правильно собранную базу с точки зрения закона Зипфа первого порядка и простейшую морфологическую подмену? Если в нашем тексте так же будет это слово встречаться 17 раз, то скорее всего после него будут идти 17 разных слов, причем далеко не самых подходящих, по типу «красивый зуб» и «красивый дебил».

Несмотря на то, что ваш текст выйдет правильный с точки зрения морфологии, он все равно будет отвергнут Яндексом.  Стоит отметить, что для получения более точных результатов, проверку стоит производить по гораздо большему кол-ву словосочетаний, нежели отдельно взятых слов, что делает этот процесс более ресурсозатратным. По сему эта проверка производится не над каждым сайтом, а лишь при наличии косвенных причин на то, что ваш сайт  (дор) был сгенерирован.

Вывод:

Избежать бана можно следующими способами:

1. При подстановке каждого последующего слова проверять частотность потенциального словосочетания по базе тематического текста. Желательно с лемматизацией.

2. Работать с парами (или более) слов – Либо при генерации с нуля, производить подстановку пар слов, либо при методах уникализации большого исходника брать от 2-ух слов.

3. Избежать данной проверки – т.е. не палиться по другим признакам. Не будет подозрений, не будет проверки.

Пост и так уже вышел слишком большой, что бы сильно не нагружать за один раз, на этом на сегодня все. Скорее всего завтра будет очередной пост на эту тему, ждите. И не забывайте подписываться на RSS ленту (счетчик справа).

По поводу конкурса и консультаций: открыл конкурсные комменты, что бы вы смогли увидеть что никаких подтасовок нет, и сравнить время ваших и выигрышных комментов, все честно :)


Like it? Share with your friends!

0

Добавить комментарий

Ваш e-mail не будет опубликован.

Контент. Часть 1-ая или с чем мы боримся.

log in

reset password

Back to
log in