-
Contexto cultural
- StarCraft: Brood War (doravante BW) é um jogo muito importante na Coreia, e a maioria dos jogadores profissionais, times e torneios tem base no país.
- BW é um jogo de estratégia semelhante ao xadrez, no qual não é importante apenas jogar, mas também estudar.
- Assim como as aberturas no xadrez, em BW também existem estratégias e builds específicas, que formam uma linguagem especializada desenvolvida dentro da comunidade.
-
Problema de conhecimento dos estrangeiros
- A maior parte da comunidade estrangeira não é fluente em coreano.
- Estrangeiros que falam coreano fluentemente são raros e, por isso, a comunidade internacional tem acesso mais limitado à informação em comparação com a comunidade coreana.
- A tradução automática tem limitações para traduzir essa linguagem especializada, e isso foi um dos fatores que fez a comunidade estrangeira ficar atrás da comunidade coreana.
-
Novo processo de tradução
- Um novo processo de tradução automática tornou possível oferecer traduções mais precisas.
- Foi possível traduzir cerca de 7 vídeos por dia, o que representa uma velocidade muito maior do que antes.
-
Stack tecnológica
- O processo é dividido em duas partes: gerar e consumir legendas.
- yt-dlp e OpenAI Whisper são usados para baixar a faixa de áudio dos vídeos e, a partir dela, gerar legendas.
- Google Colab é usado para executar o Whisper, recebendo a URL do vídeo e gerando um arquivo SRT em coreano.
- LLM e um dicionário de gírias são usados para aumentar a precisão da tradução.
-
Consumo de legendas
- TamperMonkey é usado para adicionar um botão aos vídeos do YouTube, permitindo baixar as legendas traduzidas.
- Pastebin e Google Sheets + Apps Script são usados para compartilhar e gerenciar as legendas.
-
Melhorias
- Há possibilidade de adicionar suporte a vários idiomas.
- Como melhoria técnica, também há a possibilidade de adicionar um recurso para exibir o botão apenas em vídeos específicos.
-
Considerações finais
- Desempenho, escalabilidade e latência não são importantes, e o projeto foi concluído combinando soluções já existentes.
- O user script e o código Python do notebook no Colab são curtos e fáceis de manter.
- Este projeto é o sistema CRUD mais simples possível, e não há motivo para a complexidade aumentar muito.
1 comentários
Comentários do Hacker News
Como jogador coreano de BW e pesquisador em reconhecimento de fala, achei este texto interessante. A transcrição original em coreano tinha muitos erros, mas os LLMs os corrigiram de forma impressionante. Por exemplo, "build de 12 expansão natural" na verdade era "build de 12 expansão frontal". O build
투에처리deveria ter sido transcrito como build투해처리.Não se deixe enganar pelo título. Este texto é uma abordagem muito minuciosa e criativa para traduzir a narração de StarCraft e torná-la mais acessível.
Como usuário não anglófono, ao ler este texto pensei na dificuldade de traduzir artigos de computação e desenvolvimento de software.
Consegui entender bem a versão do Google Translate. Isso porque já estou familiarizado com BW e com o opener zerg 12 hatch.
Achei engraçado que, em um texto sobre tradução, alguém tenha entendido completamente ao contrário a relação sinal-ruído. Uma relação sinal-ruído alta é algo bom.
Você pode usar
yt-dlppara baixar vídeo em qualidade mais baixa e economizar banda.yt-dlp -f "bv[height<=720]" <url>Como alguém que jogava mapas de dinheiro quando era criança, eu me perguntava o que significavam os números na frente dos edifícios.
O Google Translate melhorou, mas não conseguia traduzir de forma eficaz textos em chinês ou japonês sobre o jogo Go.
Gostei deste texto. Quando tentei as classificatórias regionais dos EUA para o World Cyber Games, fiquei surpreso com o quão rápidos os outros eram.
Gostei de como traduziram "natural expansion" como "pátio", embora isso esteja "errado".