top of page
Foto do escritorVinicius Gambeta

Meta lança modelo avançado de tradução de idiomas

A Meta lançou um novo modelo de tradução multilíngue, o SeamlessM4T, que representa um avanço significativo na tradução de fala e texto, em quase 100 idiomas diferentes.

O novo modelo é capaz de compreender entradas de fala e texto e traduzir em ambos os formatos, num sistema ‘all in one’ – a expectativa é que, no futuro, ele permita ferramentas de comunicação ainda mais avançadas, como tradução em tempo real semelhantes às da ficção científica, para auxiliar nas interações multilíngues:

Introducing SeamlessM4T, the first all-in-one, multilingual multimodal translation model. This single model can perform tasks across speech-to-text, speech-to-speech, text-to-text translation & speech recognition for up to 100 languages depending on the task. Details ⬇️ — Meta AI (@MetaAI) August 22, 2023

Apresentando o SeamlessM4T, o primeiro modelo de tradução multimodal multilíngue e multifuncional. Este único modelo pode executar tarefas de fala para texto, fala para fala, tradução de texto para texto e reconhecimento de fala para até 100 idiomas, dependendo da tarefa.

A Meta também explica: “Construir um tradutor de linguagem universal, como o fictício Babel Fish em O Guia do Mochileiro das Galáxias, é um desafio porque os sistemas existentes de fala para fala e fala para texto cobrem apenas uma pequena fração dos idiomas do mundo. Mas acreditamos que o trabalho que anunciamos hoje é um avanço significativo nesta jornada. Em comparação com abordagens que utilizam modelos separados, a abordagem de sistema único do SeamlessM4T reduz erros e atrasos, aumentando a eficiência e a qualidade do processo de tradução. Isso permite que pessoas que falam idiomas diferentes se comuniquem entre si de maneira mais eficaz”.

A Meta agora está lançando publicamente o modelo SeamlessM4T, para permitir que desenvolvedores externos desenvolvam a estrutura inicial, assim como os metadados do SeamlessAlign, que a empresa afirma ser o maior conjunto de dados de tradução multimodal aberto até o momento, com mais de 270.000 horas de fala minada e alinhamentos de texto.

2 visualizações
bottom of page