Meta anuncia a família de modelos Seamless Communication
(ai.meta.com)- Uma família de modelos de pesquisa em IA que elimina barreiras entre idiomas e permite uma comunicação mais natural entre várias línguas
- SeamlessExpressive: preserva a expressividade e as nuances da linguagem entre idiomas
- SeamlessStreaming: oferece tradução de voz e texto com cerca de 2 segundos de latência
- SeamlessM4T v2: modelo fundacional multilíngue e multitarefa que oferece suporte à comunicação por voz e texto
- Seamless: integra em um só sistema os recursos do SeamlessExpressive, SeamlessStreaming e SeamlessM4T v2
Preservação das nuances de expressão
- O SeamlessExpressive tem como objetivo realizar traduções que capturem as nuances da expressão humana
- Ferramentas de tradução existentes são eficazes em captar o conteúdo da conversa, mas geralmente produzem uma voz monótona e robótica
- O SeamlessExpressive busca preservar não apenas o estilo de fala e a tonalidade emocional, mas também nuances da linguagem como velocidade da fala e pausas
Tradução quase em tempo real
- O SeamlessStreaming é o primeiro modelo multilíngue de grande escala a oferecer tradução com cerca de 2 segundos de latência
- Baseado no SeamlessM4T v2, ele oferece suporte a reconhecimento automático de fala e tradução fala-texto para quase 100 idiomas de entrada e saída
- Também oferece suporte a tradução fala-fala para quase 100 idiomas de entrada e 36 idiomas de saída
Modelo base para tradução universal
- Em agosto de 2023, a Meta apresentou a primeira versão do SeamlessM4T, que entregava resultados de ponta em tradução e transcrição em voz e texto
- Com base nisso, o modelo aprimorado SeamlessM4T v2 se torna a base dos novos modelos SeamlessExpressive e SeamlessStreaming
- Ele se destaca por uma nova arquitetura e por um decodificador texto-unidade não autorregressivo, melhorando a consistência entre saídas em texto e voz
Abordagem de pesquisa
- A Meta acredita no poder da colaboração e da pesquisa aberta, e está disponibilizando toda a família de modelos Seamless Communication para que pesquisadores possam avançar a partir desse trabalho
- Para promover um ecossistema de IA seguro e responsável, a empresa reduziu significativamente o impacto de toxicidade por alucinação nas traduções e implementou uma abordagem personalizada de marca d’água para as saídas de áudio do modelo expressivo
Opinião do GN⁺
O ponto mais importante deste artigo é a apresentação dos modelos de IA Seamless Communication desenvolvidos pela Meta para derrubar barreiras linguísticas. Esses modelos oferecem tradução quase em tempo real enquanto preservam as nuances da expressão e trazem recursos robustos para dar suporte a diversos idiomas. Esse avanço tecnológico abre caminho para que pessoas no mundo todo se comuniquem de forma mais natural e autêntica, tornando a novidade interessante e atraente para muita gente.
1 comentários
Opiniões no Hacker News
Esperança por tecnologias futuras promissoras
Expectativa por ferramentas de aprendizado de idiomas usando tecnologia
O potencial da tecnologia de streaming em tempo real
Preocupação com a precisão da tradução
Percepção sobre mudanças na indústria causadas pela IA
Avanços na tecnologia de síntese de fala e expectativas futuras
Reclamação sobre a falta de suporte para certos idiomas
Questionamento sobre a falta de dados linguísticos
Uma expressão sobre erros de tradução
Admiração pelo avanço da tecnologia de tradução por IA