Как мы голос для ИИ-ассистента выбирали или критерии оценки TTS-движков

Мы в targetai специализируемся на создании ИИ-ассистентов для клиентского сервиса. И голосовые агенты для нас — один из ключевых сценариев. В какой-то момент мы с командой пришли к пониманию, что зависимость от вендорских TTS-сервисов — это риск. Пришлось договариваться, что вообще можно считать «хорошим голосом» для ИИ-агента. Эта статься посвящена формированию критериев отбора TTS-движка. Сравнение моделей я тут затрону вскользь, пока можно ориентироваться на данные, которые наш маркетинг опубличил во время релиза нашего движка targetspeak. И, кстати, есть хороший обзор open source TTS-решений с точки зрения метрик у коллег из Raft.


















