Аудиовизуальный корпус слитной русской речи с высокоскоростными видеозаписями (HAVRUS)
Кулешов Сергей Викторович
14 сентября 2018
384
Предметная область | — |
Отрасли по ОКВЭД | — |
Страна, регион, город | Российская Федерация, Санкт-Петербург |
Отличия от конкурентов | — |
Вид документа об охране ИС | программа для ЭВМ |
Номер документа ИС | 201762121 |
Дата регистрации документа ИС | 2017-10-19 |
Необходимые инвестиции для внедрения | договорная |
Сроки внедрения | — |
Стоимость предоставления технологии | договорная |
Наличие экспертного заключения | Нет |
Польза для потенциального потребителя
База данных содержит записи аудиовизуальной русской речи, информацию о разметке данных на акустические единицы речи (фонемы) и визуальные единицы речи (виземы), файлы акустических признаков (MFCC) и визуальных признаков (РСА) для каждой фразы. Запись аудиовизуальных данных производилась посредством Программы AVSpeechDBRecord, предназначенной для синхронизации, захвата и объединения аудиовизуальных модальностей речи с использованием высокоскоростной камеры JAI Pulnix RMC-6740 и динамического микрофона Октава МК-012 для захвата видео- и аудиосигналов соответственно. Бимодальный речевой корпус имеет следующие основные параметры: 22 диктора (12 мужчин и 10 женщин), каждый диктор произнес по 200 фонемно- и виземно-сбалансированных фраз, 130 из которых предназначены для обучения и 70 - для тестирования системы распознавания речи.