НЕПОЛНЫЙ СИНТАКСИЧЕСКИЙ РАЗБОР В МОДЕЛИ ЗАВИСИМОСТЕЙ И ЗАДАЧИ НА ЕГО ОСНОВЕ
В.Н. Поляков (Institute of Linguistics of Russian Academy of Sciences)

В докладе рассматривается новое направление обработки естественно-языкового текста (ОЕЯТ), основанное на неполном синтаксическом разборе. Работы в этом направлении ведутся с 2012 года в рамках НИТУ «МИСиС» в сотрудничестве с КФУ. За прошедшие 5 лет создана библиотека NLP@Cloud, которая позволяет производить токенизацию, морфологический анализ, частичный синтаксический анализ (чанкинг), орфокоррекцию, анализ биграмм для русского языка и аналогичные этапы ОЕЯТ для английского языка. Библиотека построена на основе фреймворка UIMA с использованием языка программирования Java. Неполный синтаксический разбор (чанкинг) строится на базе синтаксической модели Теньера. При этом в модель синтаксического анализа внесен ряд эвристик, представляющих научную новизну и открывающих новые возможности ОЕЯТ. В частности, неполный синтаксический разбор позволяет сразу перейти к синтаксической модели предложения и далее – к семантике, не дожидаясь полного описания грамматики языка. Модели зависимостей легче трансформируются в логическую нотацию или нотацию фреймов, чем модель непосредственных составляющих (грамматики Хомского). В целом, реализация чанкинга для русского и английского языков – это еще один шаг к пониманию текста. Следующим шагом будет создание семантических моделей (сентимент-анализ, голосовые помощники, естественно-языковой интерфейс, извлечение знаний и т.д.) с использованием неполного семантического анализа.

МАТЕРИАЛЫ ДОКЛАДА

ВИДЕО ДОКЛАДА: