Аудиовизуальный корпус слитной русской речи с высокоскоростными видеозаписями (HAVRUS)

14 сентября 2018
384
Предметная область
Отрасли по ОКВЭД
Страна, регион, город Российская Федерация, Санкт-Петербург
Отличия от конкурентов
Вид документа об охране ИС программа для ЭВМ
Номер документа ИС 201762121
Дата регистрации документа ИС 2017-10-19
Необходимые инвестиции для внедрения договорная
Сроки внедрения
Стоимость предоставления технологии договорная
Наличие экспертного заключения Нет

Польза для потенциального потребителя

База данных содержит записи аудиовизуальной русской речи, информацию о разметке данных на акустические единицы речи (фонемы) и визуальные единицы речи (виземы), файлы акустических признаков (MFCC) и визуальных признаков (РСА) для каждой фразы. Запись аудиовизуальных данных производилась посредством Программы AVSpeechDBRecord, предназначенной для синхронизации, захвата и объединения аудиовизуальных модальностей речи с использованием высокоскоростной камеры JAI Pulnix RMC-6740 и динамического микрофона Октава МК-012 для захвата видео- и аудиосигналов соответственно. Бимодальный речевой корпус имеет следующие основные параметры: 22 диктора (12 мужчин и 10 женщин), каждый диктор произнес по 200 фонемно- и виземно-сбалансированных фраз, 130 из которых предназначены для обучения и 70 - для тестирования системы распознавания речи.