OpenAI продемонстрировала нейросеть для генерации голоса

Дата публикации: 30.03.2024, 15:58
Voice Engine

Продукт под названием Voice Enginе позволяет пользователям загружать любой 15-секундный образец голоса для создания его синтетической копии. По данным Bloomberg, накануне нейросеть показали 10 разработчикам. Однако дата публичного релиза пока неизвестна.

– Мы хотим убедиться, что все будут спокойны за то, как она будет применяться. Мы понимаем, насколько опасна эта технология, и у нас есть средства защиты от мошенничества, – сказал в интервью TechCrunch сотрудник отдела продуктов OpenAI Джефф Харрис.

 

Модель разрабатывается около двух лет. Как объяснил Харрис, она обучалась на смеси лицензионных и общедоступных данных.

По данным TechCrunch, стоимость Voice Engine составит $15 за 1 млн символов, или ~162 500 слов. Это дешевле, чем у одного из самых популярных конкурентов, компании ElevenLabs (их цена – $11 за 100 тысяч символов).  Однако Voice Engine пока не предлагает элементов управления для настройки интонации или высоты тона голоса. Однако Харрис отмечает, что данные функции внедрят в последующих поколениях продукта (например, если вы говорите возбужденным тоном, синтетический голос в результате будет звучать так же).

Читайте также: OpenAI подала заявку на регистрацию торговой марки VOICE ENGINE