создание моделей по нескольким образцам речи
anti-spoofing (определение подделки голоса)
разделение на фиксированное или произвольное количество дикторов
поддержка различных аудиоканалов (телефон, ближний микрофон)
наличие в сигнале специфических шумов (гудки, автоинформатор, шум и другие)
качество речевого сигнала
возрастная категория (взрослый, ребенок)
пол диктора
длительность речи в сигнале
просмотр и модификация списка слов и транскрипций
ручное добавление новых слов
модификация языковых вероятностей отдельных слов
автоматизированное расширение словаря и перестроение лингвистической модели по текстам
Speech recognition for 37 languages
Speech sithesis
Голосовая биометрия
Идентификация языков
Диаризация (разделение дикторов в моно-канале)
Детектор голосовой активности (VAD)
Адаптация моделей распознавания речи конечным пользователем
SSML-support
пунктуационная паузация
изменение тембра произнесения
чтение сокращений, дат, валют и другое
изменение скорости воспроизведения без изменения тембра
расстановка ударений исходя из контекста (снятие омографов)
Определение технических характеристик
punctuations
время начала и конца произнесения каждого слова
words confidence
постобработка результатов распознавания (преобразование слов в цифры, капитализация)
точность идентификации в телефонном канале выше 97%