- A iniciativa dos "1.000 idiomas" (criar modelos de aprendizado de máquina com suporte a 1.000 idiomas), iniciada em novembro do ano passado, está em andamento
- Atualmente, o USM tem 2B (2 bilhões) de parâmetros e foi treinado com mais de 300 idiomas, 12 milhões de horas de fala e 28 bilhões de sentenças
- É usado no YouTube para gerar legendas. Além de inglês e chinês, também oferece suporte a idiomas como amárico, cebuano, assamês e azeri
- Dois desafios importantes para alcançar esse objetivo
- Os métodos tradicionais de aprendizado supervisionado têm pouca escalabilidade
- Criar modelos de forma eficiente para aumentar o número de idiomas
- Abordagem: Self-supervised learning with fine-tuning (aprendizado autossupervisionado com ajuste fino)
- Publicação do artigo e da API (disponível para inscrição apenas por pesquisadores)
1 comentários
Acho que é uma ótima tecnologia para permitir que línguas e dialetos em desaparecimento possam continuar sendo usados pelas futuras gerações.