МОДЕЛИ, МЕТОДЫ И ПРОГРАММНЫЕ ИНСТРУМЕНТЫ
ПОИСКА В СТРУКТУРНО РАЗМЕЧЕННЫХ ТЕКСТАХ

А.М. Гусенков (Казанский федеральный университет)

Предложен подход к интеллектуальному поиску сложных объектов в различных типах структурно размеченных текстов, который может быть применен для обработки Больших данных (Big Data). Исследуются два вида представления информационных объектов: реляционные базы данных (РБД), которые структурно размечены своими схемами, и полнотекстовые естественнонаучные документы, содержащие математические выражения (формулы). Для таких полнотекстовых документов предлагается дополнительная автоматизированная разметка для организации поиска формул. В обоих случаях источником информации для построения онтологии и, в дальнейшем, организации поиска являются тексты на естественном языке, которые относятся к слабоструктурированным данным. Для РБД это комментарии к наименованиям таблиц и их атрибутов, а для естественнонаучных документов (статей, монографий и т. д.) – текстовое содержимое размеченных документов.

ПРЕЗЕНТАЦИЯ

ВИДЕО ДОКЛАДА: