О генерации текста, его качестве, базах данных статистики и прочем всяком сопутствующем


В настоящее время алгоритмы выявления бредотекста у ПС Яндекс развиты в гораздо большей степени, чем у Гугла. Яндекс довольно шустро определяет неестественные тексты, созданные по примитивным алгоритмам такими же примитивными программами-генераторами. А нормальный беспалевный генератор так еще никто и не написал… Хотя многие кричат, что дескать есть у меня мегагенератор, который выдает читаемые тексты – это все мелочи и не достойно внимания. Потому что те, у кого он есть (а вдруг?) просто молчат. :)

В последнюю неделю опять вернулся к данной теме. Вдруг вспомнил, что нормального текстгена я так и не написал. Хотя попыток было множество. А ввиду того, что давно уже не не программил, решил вернуться к этому увлекательному занятию. Дня четыре уже тестирую разные алгоритмы и подходы. Пока рано говорить о каких-то положительных результатах, но положительные тенденции, определенно, вырисовываются.

Как обычно столкнулся с проблемами производительности, ибо чтобы хранить всякую статистику (какой на данный момент оперирую) хотя бы по 20 метрам исходного человеческого текста, обработанного майстемом требуется 230 метров в виде плэйн-текста или 600 (!!!) метров (примерно 4 миллиона записей в двух таблицах суммарно) в формате БД MS Access 2003. Ладно еще просто хранить, так ведь надо и кое-какие манипуляции производить с этим объемом – поиск, выборки, сравнения итд. Работа сборщика-построителя предложений совершенно не ускорилась при переводе его механизма на работу с БД. А по моему субъективному мнению, еще и замедлилась. И пох на все индексированные поля для ускорения выборок и все остальное. Т.е. никакого прироста производительности. Вот и думай тут…

Опять решил вернуться к простым текстовым спискам внутри программы, а искать по ним нужные данные в несколько десятков потоков – хотя еще эту часть не переделал и про эффективность сказать пока не могу. Теоритечески при нормальном процессоре скорость должна возрасти. Проверю уже на днях.

Сам алгоритм, как сейчас уже понимаю, получается очень ресурсозатратным – чтобы построить одно правильное человеческое предложение уходит от 1 до 10 минут, взависимости от сложности самого предложения и объема словаря статистики. Предложение получается более-менее, но есть над чем работать. Лучшие результаты – на коротких предложениях, где по минимуму всяких повторяющихся частей речи. Тут самое время изучать возможности, которые дают распределенные вычисления, но к сожалению, не имею на то ни времени, ни лишних компьютеров. :(

Что могу сказать – в этот раз, видимо, доведу все до конца :) Если комп не загнется от генерации одной статьи за всю ночь. Мда. Думать и думать.

Хотелось бы найти того, кто занимается тем же. Обменяться опытом, так сказать.

Всего хорошего. Продолжение следует…

 


Like it? Share with your friends!

0

Добавить комментарий

Ваш e-mail не будет опубликован.

О генерации текста, его качестве, базах данных статистики и прочем всяком сопутствующем

log in

reset password

Back to
log in