О валентностях, актантах, предикатах и грамматической основе в составе предложения


Куда-то проебался предыдущий пост о семантическом парсере Тузова (с одной интересной книжкой) и приветом VitVVS. Видать, хостер накосячил. Ну и х*й с ним.

Сегодня речь пойдет о синтаксических связях в предложении.

Итак, чтобы собрать не бредоподобное (естественное) предложение надо определить синтаксические связи между семантическими категориями слов. Вдумайтесь.:) Это действительно важно, для тех, кто хочет генерить естественные тексты.

Современная русс.лингвистика говорит, что у большинства слов есть валентность – способность присоединять другие слова. О ней вы можете почитать где угодно. Написано достаточно, хоть и не так много, как хотелось бы. Кто то даже составлял специальные комбинаторные словари, где указаны все возможные комбинации слов РЯ. Но, на самом деле, жизни не хватить охватить весь объем комбинаций лемм. Потому, нужен другой подход.

Считаю, что другой подход заключается в выявлении набора связей между семантическим категориями. Т.е. задания правил о том какие категории могут выступать в качестве актантов (субъекты и объекты) для других.

Простой пример – глагол «писать», простейшая возможность для построения предикатного отношения – это дествительный залог глагола и существительное из семант. категории «Человек», например, «Ученик». Получаем грамматическую основу простейшего предложения – «Ученик пишет», другой пример – «Учитель учит» итд. Здесь существительное «учитель» является первым актантом и заполняет первую валентность глагола «учит». Однако, большинство глаголов имеет от 2 до 4 валентностей (часто на разные падежи). В таких случаях нам нужен уже страдательный залог для глагола, ситуация в которой присутствует не только субъект, но и объект действия. Например «Вася учит стих.»

Вышеописаное – простейшие варианты построения синтаксической структуры единицы текста. Всего же наш любимый яшка при пристальном анализе текста выделяет около 60 разных синтаксических связей. Пруф не покажу. Но он есть. :)

Моя же основная задача на данный момент – сосвтавить простейшие правила синтеза простейших предложений. Дальше – больше и глубже.

Хэв фан. Продолжение слудует.

з.ы. SEOблог превращается в техноблог, млять

UPDATE

первые нефильтрованные результаты

слева структура предложения на XML, справа – резал генерации по лимиту 10-словной выборки вариантов из базы. уменьшил базу до 5к лемм – все равно покрытие текста остается ~82%. А ресурсы здорово экономит.

Умаялся бля. Дальше все намного проще пойдет. имхо.


Like it? Share with your friends!

0

Добавить комментарий

Ваш e-mail не будет опубликован.

О валентностях, актантах, предикатах и грамматической основе в составе предложения

log in

reset password

Back to
log in