создание моделей по нескольким образцам речи
anti-spoofing (определение подделки голоса)
разделение на фиксированное или произвольное количество дикторов
поддержка различных аудиоканалов (телефон, ближний микрофон)
наличие в сигнале специфических шумов (гудки, автоинформатор, шум и другие)
качество речевого сигнала
возрастная категория (взрослый, ребенок)
пол диктора
длительность речи в сигнале
просмотр и модификация списка слов и транскрипций
ручное добавление новых слов
модификация языковых вероятностей отдельных слов
автоматизированное расширение словаря и перестроение лингвистической модели по текстам
Транскрибирование (распознавание) речи на 51 языке
Синтез речи
Голосовая биометрия
Идентификация языков
Диаризация (разделение дикторов в моно-канале)
Детектор голосовой активности (VAD)
Адаптация моделей распознавания речи конечным пользователем
поддержка SSML
пунктуационная паузация
изменение тембра произнесения
чтение сокращений, дат, валют и другое
изменение скорости воспроизведения без изменения тембра
расстановка ударений исходя из контекста (снятие омографов)
Определение технических характеристик
расстановка знаков препинания
время начала и конца произнесения каждого слова
несколько возможных гипотез распознавания фраз
уровень уверенности распознавания каждого слова и фразы
перевод распознанного текста на русский язык
постобработка результатов распознавания (преобразование слов в цифры, капитализация)
точность идентификации в телефонном канале выше 98%