МЕТОДЫ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ О ЗАБОЛЕВАНИЯХ
ИЗ КОЛЛЕКЦИЙ БИОМЕДИЦИНСКИХ ТЕКСТОВ

Е.В. Тутубалина (КФУ)

Аннотация доклада
В число активно развивающихся направлений обработки неструктурированной текстовой информации входят задачи медицинской науки, в частности, задачи фармакологии и персонализированной медицины. Предметом доклада являются задачи выделения сущностей, связанные с заболеваниями, и установления соответствия между выделенными сущностями и медицинскими понятиями в онтологии (системе классификации болезней). Рассматривается ряд конструкций современных рекуррентных нейронных сетей, включая комбинированную модель LSTM (Long Short-Term Memory) c CRF (Conditional Random Fields) и модель архитектуры “кодировщик-декодировщик” (Encoder-Decoder) для приведения фраз из записей врачей на английском языке к медицинскому коду по системе международной классификации болезней (МКБ-10, ICD-10), показавшая наилучшие результаты в открытых соревнованиях алгоритмов CLEF eHealth 2017 Task 1.

Дополнительные сведения
Группа российских исследователей обучила нейронную сеть анализировать мнения пользователей соцсетей об эффектах лекарств. Основной целью ученых было преодолеть терминологический разрыв между пациентами и профессионалами в области здравоохранения. В рамках исследования ученые на примерах базы данных на английском языке обучили нейронную сеть превращать текст, написанный на языке социальных сетей (например, «не могу заснуть всю ночь» или «слегка кружится голова»), в формальный медицинский язык (к примеру, «бессонница» и «головокружение» соответственно). Такая задача выходит за рамки простого сопоставления естественных выражений с элементами словаря: проблема в том, что сообщения пользователей могут вообще не пересекаться с медицинскими терминами.
Социальные сети — практически неисчерпаемый источник мнений по широкому кругу вопросов. Люди пишут о своей работе, отношениях и, в том числе, жалуются на проблемы со здоровьем. По сути, социальные сети предоставляют огромные наборы данных мнений вместе с демографической информацией и другими данными о пользователе. Хотя ученые часто используют интеллектуальный анализ текстов (text mining) в социальных сетях для перепрофилирования лекарств и генерации гипотез (первые работы по этой теме вышли в 2010 году), мало кто сопоставлял пользовательские фразы с профессиональными терминами. Задача сопоставления упомянутого пользователем заболевания с конкретным медицинским термином называется нормализацией медицинских концептов. Сложность в том, что профессиональная медицинская лексика редко совпадает с повседневной, которую используют люди в общении. Чтобы решить эту проблему, российские исследователи использовали последовательное обучение рекуррентных нейронных сетей и семантическое представление однословных и многословных выражений.
«В работе мы сфокусировались на мнениях пациентов о влиянии лекарств, — объясняет научный сотрудник лаборатории нейронных систем и глубокого обучения МФТИ Валентин Малых.
«Важность работы определяется постоянно растущей потребностью в анализе текстовых данных. Мы живем в условиях информационного взрыва, когда количество информации удваивается каждые несколько лет, и человек или даже коллектив людей уже не способен обработать все доступные данные. В нашем проекте используются методы анализа текстов и машинное обучение для извлечения полезной информации из доступных данных, как, например, в этом случае, где мы извлекали упоминания о побочных лекарственных реакциях из сообщений, которые люди пишут в социальных сетях», – добавляет старший научный сотрудник Лаборатории хемоинформатики и молекулярного моделирования Казанского федерального университета Елена Тутубалина.
По мнению авторов работы, непрерывное развитие и улучшение точности интеллектуального анализа текстов сообщений пациентов в социальных сетях окажет значительное влияние на изучение влияния лекарств на организм, повторное назначение лекарств и понимание лекарственных эффектов в контексте других факторов, таких как одновременный прием разных препаратов, диеты и образа жизни.
В исследовании принимали участие ученые Казанского федерального университета (КФУ), НИЦ "Курчатовский институт", Первого МГМУ им. И.М. Сеченова, Санкт-Петербургского отделения Математического института им. В. А. Стеклова РАН (ПОМИ РАН) и Московского физико-технического института (МФТИ). Работа была поддержана грантом Российского научного фонда и направлена на развитие подобных технологий для анализа русскоязычного текста.

ПРЕЗЕНТАЦИЯ

ВИДЕО ДОКЛАДА: