Dodari, tradutor de IA coreano-inglês/inglês-coreano

(github.com/vEduardovich)

40 pontos por tominam2 2024-04-13 | 14 comentários | Compartilhar no WhatsApp

É possível fazer tradução por IA entre coreano e inglês, nos dois sentidos, no seu próprio computador sem limitações.

A qualidade é superior à da tradução automática comum.
É possível traduzir arquivos txt e epub.
A saída é gerada em dois arquivos: um com o texto traduzido (texto original) e outro com o texto traduzido. Se a tradução parecer estranha, é possível comparar imediatamente com o original.
É muito fácil de usar. Basta arrastar os arquivos que precisam de tradução e clicar no botão para executar a tradução. Ele detecta e traduz automaticamente entre coreano ↔ inglês.
É possível trocar por outro modelo de IA. Atualmente usa o NHNDQ, que tem boa relação custo-benefício.

14 comentários

upkit2 2024-04-16

Olá, aconteceu que durante a instalação eu fechei o cmd, e depois disso, mesmo apagando a pasta e instalando de novo, a instalação não continua... Existe alguma forma de resolver isso? T_T

tominam2 2024-04-17

Claro. Vamos resolver isso.
Mas primeiro precisamos entender um pouco melhor o que exatamente não está funcionando.

https://github.com/vEduardovich/dodari/issues
No GitHub do Dodari acima, clique no botão New issue e crie um novo issue.

Você poderia explicar com um pouco mais de detalhes o que não está funcionando, talvez com uma captura de tela ou descrevendo a situação?
Com certeza vamos resolver isso.

illuza 2024-04-15

Uau, isso é impressionante.
Eu uso o DeepL, mas vou comparar com calma enquanto verifico.
Principalmente, quero logo comparar textos de literatura em inglês.

tominam2 2024-04-15

Essa parte que você mencionou é, no momento, o ponto que eu sinto mais falta.
O modelo usado atualmente no Dodari é o modelo NHNDQ, uma versão ajustada por fine-tuning do facebook-nllb, um modelo multilíngue de tradução para 200 idiomas, especializada em coreano. Mas, embora seja melhor que o Google Tradutor, ele fica bem atrás do DeepL.

Enquanto testava vários modelos para resolver isso, experimentei o modelo yanolja-eeve, considerado de primeira linha para coreano, e fiquei surpreso com o quão bom ele era. Pela minha percepção, parecia atingir algo como 80% a 90% do DeepL.

Mas, para usar esse modelo, o computador do usuário precisa ter mais de 23 GB de VRAM. Além disso, como a velocidade de tradução fica dezenas de vezes mais lenta, é preciso aplicar a tecnologia vllm para acelerar. Nesse caso, a velocidade melhora bastante, mas passa a ser indispensável usar Linux. Ou seja, só “desenvolvedores que usam uma 4090 e Linux” conseguem testar o modelo da Yanolja.

É com isso que estou quebrando a cabeça agora. Uma pena.

kunggom 2024-04-15

Precisa de mais explicação?

tominam2 2024-04-15

O modelo-base do NHNDQ é o facebook-nllb, um modelo de tradução multilíngue para 200 idiomas.
Por isso, às vezes ele acaba produzindo esse tipo de língua alienígena.

kunggom 2024-04-15

Como a qualidade da tradução para o coreano ainda parecia ter algumas limitações, achei que eles tinham dado ao produto o nome a partir do apelido 도더리, protagonista do incidente do Freegate, então não pude deixar de mencionar o lendário erro de uso de tradutor “必要韓紙” que saiu desse caso.

roxie 2025-06-14

Será que era necessário? Que história triste...

tominam2 2024-04-15

Parece que houve algum incidente complicado. Mesmo lendo, não consigo entender direito, aff.

O nome Dodari foi criado em uma conversa com o modelo mixtral-7bx8.
No começo, a IA recomendou o nome Eoneodari, mas eu precisava de alguma imagem clara e fácil de desenhar, então, por brincadeira, perguntei se “Dodari” não seria uma opção. Eu mesmo achava que era algo meio sem sentido.

Mas a IA respondeu que Dodari era muito bom, no sentido de “ponte que ajuda”. Foi uma interpretação que eu nunca tinha imaginado, e achei bem original. Foi assim que surgiu o nome Dodari.

kunggom 2024-04-15

Foi um caso de bastante tempo atrás, mas na época ficou relativamente famoso nas comunidades de internet da Coreia.
Resumindo mais ou menos, foi o seguinte.

O administrador Dodori de um café do Naver publicou um aviso dizendo que faria uma compra coletiva de um CD de música japonesa de edição limitada por 70 mil won
Depois, foi publicada a primeira lista de participantes da compra coletiva, mas os nomes e endereços pareciam estranhos, então as pessoas começaram a desconfiar
Um membro do café descobriu que o CD em questão nem era edição limitada e custava só na faixa dos 30 mil won, e quando foi questionar isso, Dodori o expulsou do café, fazendo a situação crescer
No conteúdo dos e-mails que Dodori divulgou dizendo serem trocas com uma empresa japonesa, apareceram erros absurdos de uso de tradutor, como “必要韓紙”, e assim o caso acabou ficando conhecido também fora do grupo
Mais tarde, veio à tona que Dodori era o tipo de pessoa com uma mitomania bem séria, e a maior parte do que ele postava na internet sobre a própria vida era cheia de fanfarronice sem sentido e mentiras

Aliás, eu também já passei às vezes por situações em que um modelo de linguagem grande apresenta uma interpretação totalmente inesperada, mas que parece plausível.
Acho que esse fenômeno de perceber, em conversas, pontos que a pessoa sozinha não teria notado, agora também está sendo experimentado nas conversas com máquinas.

tominam2 2024-04-15

Nossa. Mas parece que não foi preso.
Pessoalmente, acho o ChatGPT certinho demais e sem graça, mas o Mixtral, talvez por não ter censura, torna a conversa bem interessante.

kunggom 2024-04-15

Segundo o conteúdo da wiki, ele chegou a ser processado, mas aparentemente recebeu clemência depois de pedir desculpas insistentemente e o caso acabou sendo encerrado. Na época em que foi processado, sua condição era a de agente de serviço público alternativo.

No meu caso, por limitações de desempenho do PC pessoal, ainda não cheguei a usar diretamente um LLM local. Tenho usado só até o nível do GPT-4, mas estou pensando em assinar o Claude-3 também.

savvykang 2024-04-14

Desde a execução do modelo no Huggingface até a configuração do venv e a implementação do serviço web, foi um exemplo completo e muito útil. Obrigado por compartilhar.

tominam2 2024-04-14

Fico muito feliz por ter podido ajudar. Eu é que agradeço ainda mais.

Dodari, tradutor de IA coreano-inglês/inglês-coreano

Leituras relacionadas

14 comentários