4 pontos por GN⁺ 2023-12-02 | 1 comentários | Compartilhar no WhatsApp
  • Uma família de modelos de pesquisa em IA que elimina barreiras entre idiomas e permite uma comunicação mais natural entre várias línguas
    • SeamlessExpressive: preserva a expressividade e as nuances da linguagem entre idiomas
    • SeamlessStreaming: oferece tradução de voz e texto com cerca de 2 segundos de latência
    • SeamlessM4T v2: modelo fundacional multilíngue e multitarefa que oferece suporte à comunicação por voz e texto
    • Seamless: integra em um só sistema os recursos do SeamlessExpressive, SeamlessStreaming e SeamlessM4T v2

Preservação das nuances de expressão

  • O SeamlessExpressive tem como objetivo realizar traduções que capturem as nuances da expressão humana
  • Ferramentas de tradução existentes são eficazes em captar o conteúdo da conversa, mas geralmente produzem uma voz monótona e robótica
  • O SeamlessExpressive busca preservar não apenas o estilo de fala e a tonalidade emocional, mas também nuances da linguagem como velocidade da fala e pausas

Tradução quase em tempo real

  • O SeamlessStreaming é o primeiro modelo multilíngue de grande escala a oferecer tradução com cerca de 2 segundos de latência
  • Baseado no SeamlessM4T v2, ele oferece suporte a reconhecimento automático de fala e tradução fala-texto para quase 100 idiomas de entrada e saída
  • Também oferece suporte a tradução fala-fala para quase 100 idiomas de entrada e 36 idiomas de saída

Modelo base para tradução universal

  • Em agosto de 2023, a Meta apresentou a primeira versão do SeamlessM4T, que entregava resultados de ponta em tradução e transcrição em voz e texto
  • Com base nisso, o modelo aprimorado SeamlessM4T v2 se torna a base dos novos modelos SeamlessExpressive e SeamlessStreaming
  • Ele se destaca por uma nova arquitetura e por um decodificador texto-unidade não autorregressivo, melhorando a consistência entre saídas em texto e voz

Abordagem de pesquisa

  • A Meta acredita no poder da colaboração e da pesquisa aberta, e está disponibilizando toda a família de modelos Seamless Communication para que pesquisadores possam avançar a partir desse trabalho
  • Para promover um ecossistema de IA seguro e responsável, a empresa reduziu significativamente o impacto de toxicidade por alucinação nas traduções e implementou uma abordagem personalizada de marca d’água para as saídas de áudio do modelo expressivo

Opinião do GN⁺

O ponto mais importante deste artigo é a apresentação dos modelos de IA Seamless Communication desenvolvidos pela Meta para derrubar barreiras linguísticas. Esses modelos oferecem tradução quase em tempo real enquanto preservam as nuances da expressão e trazem recursos robustos para dar suporte a diversos idiomas. Esse avanço tecnológico abre caminho para que pessoas no mundo todo se comuniquem de forma mais natural e autêntica, tornando a novidade interessante e atraente para muita gente.

1 comentários

 
GN⁺ 2023-12-02
Opiniões no Hacker News
  • Esperança por tecnologias futuras promissoras

    Espera pelo dia em que poderá usar fones de ouvido no exterior e ouvir as conversas ao redor em seu próprio idioma. Quando criança, ficou fascinado pelo “tradutor universal” visto na ficção científica e, ao ver seu pai ocupado trabalhando como intérprete simultâneo de francês-inglês, tentou criar um tradutor por conta própria. Espera que a tradução, por ser um trabalho importante, possa ajudar muitas pessoas.

  • Expectativa por ferramentas de aprendizado de idiomas usando tecnologia

    Espera o desenvolvimento de um professor de idiomas com base nessa tecnologia. Todo mundo poderia ter um professor particular por algumas horas por dia. A ideia de trabalhar na China ou no México e aprender um idioma por meio de jogos em VR é muito atraente.

  • O potencial da tecnologia de streaming em tempo real

    Para um novo funcionário com deficiência auditiva, a empresa sugeriu soluções como o Dragon, que não funcionavam em tempo real, mas o próprio funcionário usou o Whisper para desenvolver uma solução de transcrição quase em tempo real. Há expectativa sobre o que ele conseguirá fazer com os novos modelos.

  • Preocupação com a precisão da tradução

    Mais preocupante do que o tradutor usar palavras imprecisas às vezes é quando ele produz traduções que causam mal-entendidos. Por exemplo, ao traduzir "what the fuck" para o espanhol, gerar a versão suavizada "qué diablos" pode ser um problema para usuários que querem entender exatamente a intenção original.

  • Percepção sobre mudanças na indústria causadas pela IA

    Quando sua esposa estava tentando se tornar uma dubladora profissional em vários idiomas, ele previu as mudanças que a IA traria para a indústria e mudou de rumo. Considera os avanços da IA impressionantes.

  • Avanços na tecnologia de síntese de fala e expectativas futuras

    A tecnologia de texto para fala avançou bastante nos últimos anos, mas há curiosidade sobre quando ela será integrada aos mecanismos de TTS embutidos nos sistemas operacionais, como os usados por leitores de tela.

  • Reclamação sobre a falta de suporte para certos idiomas

    Ficou decepcionado com a ausência de idiomas importantes como o hindi nos exemplos. A Índia é a maior base de usuários do Facebook, mas o Facebook não tem contribuído o suficiente para o país.

  • Questionamento sobre a falta de dados linguísticos

    Os resultados ao tentar traduzir de inglês para suaíli não foram bons. Usou o Huggingface M4T V2, mas na maioria dos casos ele não funcionava direito e apenas devolvia inglês com outra voz. É necessário uma explicação clara sobre quais dados estão faltando para que o idioma funcione adequadamente. Talvez fosse possível ajudar fornecendo dados.

  • Uma expressão sobre erros de tradução

    A expressão "toxic word hallucinations" parece bem cyberpunk.

  • Admiração pelo avanço da tecnologia de tradução por IA

    Ficou emocionado com o progresso alcançado nos últimos 30 anos. Em meados dos anos 90, trabalhou como estudante no sistema Verbmobil do Centro Alemão de Pesquisa em Inteligência Artificial, que realizava tradução fala-para-fala entre inglês, alemão e japonês em um escopo muito limitado. Na época, eram usadas abordagens “tradicionais” de NLP, como modelagem de domínio, parsing de sentenças, motores semânticos e conversão de fala para texto personalizada para os três idiomas, mas percebeu-se depois que esse caminho acabava sendo um beco sem saída.