OpenAI продемонстрировала нейросеть для генерации голоса
Продукт под названием Voice Enginе позволяет пользователям загружать любой 15-секундный образец голоса для создания его синтетической копии. По данным Bloomberg, накануне нейросеть показали 10 разработчикам. Однако дата публичного релиза пока неизвестна.
– Мы хотим убедиться, что все будут спокойны за то, как она будет применяться. Мы понимаем, насколько опасна эта технология, и у нас есть средства защиты от мошенничества, – сказал в интервью TechCrunch сотрудник отдела продуктов OpenAI Джефф Харрис.
Модель разрабатывается около двух лет. Как объяснил Харрис, она обучалась на смеси лицензионных и общедоступных данных.
По данным TechCrunch, стоимость Voice Engine составит $15 за 1 млн символов, или ~162 500 слов. Это дешевле, чем у одного из самых популярных конкурентов, компании ElevenLabs (их цена – $11 за 100 тысяч символов). Однако Voice Engine пока не предлагает элементов управления для настройки интонации или высоты тона голоса. Однако Харрис отмечает, что данные функции внедрят в последующих поколениях продукта (например, если вы говорите возбужденным тоном, синтетический голос в результате будет звучать так же).
Читайте также: OpenAI подала заявку на регистрацию торговой марки VOICE ENGINE