Тема-рематическая лингвистическая модель для машинной обработки текстов

14 сентября 2018
252
Предметная область
Выходные данные
Ключевые слова
Вид публикации Статья
Контактные данные автора публикации Елашкина Анна, e-mail: elashkina@noolab.ru
Ссылка на публикацию в интернете www.noolab.ru/index.php?id=stat&show=23

Аннотация

Основные проблемы, возникающие при решении задач с содержанием - данными, изложенными в текстах на естественном языке, заключаются в необходимости отклонения от работы с исключительно формальными признаками, формализуемыми текстовыми последовательностями и подстроками. Это заставляет обращаться к работе с некоторыми объектами (сущностями), отсутствующими в тексте в явном формализованном виде, но описанными автором и несущими собственно реальное значение для решаемых задач.
В обобщенной и абстрактной формулировке стоит задача выделения смысла текста. В конкретной формулировке, приближенной к реальным возможностям современных систем, стоит задача восстановления отдельных объектов и их взаимосвязей, которые были описаны, либо упомянуты, либо подразумевались автором неявно.
В задаче построения информационно-поисковой Интернет-системы, решением которой занимаются авторы, описанная задача в первую очередь сводится к следующему. Машине необходимо составлять базу данных, в которой хранится информация о некоторых объектах, процессах и явлениях, описанных в текстах, и эти записи сопровождаются информацией о свойствах, качествах и взаимосвязях описанных в текстах объектах. При этом один и тот же объект может описываться с использованием различных слов (терминов), либо даже не описываться, а упоминаться косвенно. Кроме этого, в различных текстах (и даже нередко - в одном) одинаковыми словами могут описываться различные объекты (различные экземпляры, подклассы и т.п.).
Важность решения данной проблемы в информационно-поисковой системе продиктована необходимостью, с одной стороны, сузить поиск, исключив из него документы, упоминающие ненужные пользователю объекты/события, с другой стороны - застраховаться от излишнего сужения, традиционно возникающего за счет того, что пользователь может спрашивать об объекте (персоне, событии) совсем не теми словами, которыми пользовался автор при описании.
Подробнее
Для того чтобы оставить комментарий необходимо авторизоваться.