Meta показала нейросеть SeamlessM4T, которая может распознавать речь и делать перевод на 100 языков

О редакции Рейтинг Digital Business: стартапы и инвестиции
Дата публикации: 23.08.2023, 17:15

Компания Meta представила ИИ-модель SeamlessM4T, которая принимает входные данные в виде текста и аудио, распознаёт речь и способна переводить её на 100 языков.

Однако аудиоперевод пока доступен только на 35 языках.

Кроме того, модель работает с входными данными, в которых используется сразу несколько языков.

Проект с исходным открытым кодом доступен на GitHub. Также Meta выпустила набор данных SeamlessAlign, который включает 270 тысяч часов звучащей речи и её текстовый перевод. Компания сравнивает свою модель с вавилонской рыбкой из книг Дугласа Адамса «Автостопом по галактике».

Исследователи предупреждают, что экспериментальная демонстрация может дать неточный перевод или изменить значение произнесённых слов, и просят сообщать о выявленных ошибках в её работе.

Модель основана на предыдущих проектах Meta, в том числе системе прямого перевода между языками, ИИ-переводчике для диалекта хоккеин без письменного варианта и других.

Еще по теме:

Преподаватель ЕНУ разработала систему распознавания казахского жестового языка