Идентификация языков
Диаризация (разделение дикторов в моно-канале)
Детектор голосовой активности (VAD)
Голосовая биометрия
Синтез речи
Адаптация моделей распознавания речи конечным пользователем
Транскрибирование (распознавание) речи на 38 языках
Определение технических характеристик
постобработка результатов распознавания (преобразование слов в цифры, капитализация)
уровень уверенности распознавания фразы
уровень уверенности распознавания каждого слова
несколько возможных гипотез распознавания фраз
время начала и конца произнесения каждого слова
расстановка знаков препинания
расстановка ударений исходя из контекста (снятие омографов)
изменение скорости воспроизведения без изменения тембра
чтение сокращений, дат, валют и другое
изменение тембра произнесения
пунктуационная паузация
поддержка SSML
точность идентификации в телефонном канале выше 97%
создание моделей по нескольким образцам речи
anti-spoofing (определение подделки голоса)
разделение на фиксированное или произвольное количество дикторов
поддержка различных аудиоканалов (телефон, ближний микрофон)
длительность речи в сигнале
пол диктора
возрастная категория (взрослый, ребенок)
качество речевого сигнала
наличие в сигнале специфических шумов (гудки, автоинформатор, шум и другие)
автоматизированное расширение словаря и перестроение лингвистической модели по текстам
модификация языковых вероятностей отдельных слов
ручное добавление новых слов
просмотр и модификация списка слов и транскрипций