Dodari, tradutor de IA coreano-inglês/inglês-coreano
(github.com/vEduardovich)É possível fazer tradução por IA entre coreano e inglês, nos dois sentidos, no seu próprio computador sem limitações.
- A qualidade é superior à da tradução automática comum.
- É possível traduzir arquivos
txteepub. - A saída é gerada em dois arquivos: um com o texto traduzido (texto original) e outro com o texto traduzido. Se a tradução parecer estranha, é possível comparar imediatamente com o original.
- É muito fácil de usar. Basta arrastar os arquivos que precisam de tradução e clicar no botão para executar a tradução. Ele detecta e traduz automaticamente entre coreano ↔ inglês.
- É possível trocar por outro modelo de IA. Atualmente usa o NHNDQ, que tem boa relação custo-benefício.
14 comentários
Olá, aconteceu que durante a instalação eu fechei o cmd, e depois disso, mesmo apagando a pasta e instalando de novo, a instalação não continua... Existe alguma forma de resolver isso? T_T
Claro. Vamos resolver isso.
Mas primeiro precisamos entender um pouco melhor o que exatamente não está funcionando.
https://github.com/vEduardovich/dodari/issues
No GitHub do Dodari acima, clique no botão
New issuee crie um novo issue.Você poderia explicar com um pouco mais de detalhes o que não está funcionando, talvez com uma captura de tela ou descrevendo a situação?
Com certeza vamos resolver isso.
Uau, isso é impressionante.
Eu uso o DeepL, mas vou comparar com calma enquanto verifico.
Principalmente, quero logo comparar textos de literatura em inglês.
Essa parte que você mencionou é, no momento, o ponto que eu sinto mais falta.
O modelo usado atualmente no Dodari é o modelo NHNDQ, uma versão ajustada por fine-tuning do
facebook-nllb, um modelo multilíngue de tradução para 200 idiomas, especializada em coreano. Mas, embora seja melhor que o Google Tradutor, ele fica bem atrás do DeepL.Enquanto testava vários modelos para resolver isso, experimentei o modelo
yanolja-eeve, considerado de primeira linha para coreano, e fiquei surpreso com o quão bom ele era. Pela minha percepção, parecia atingir algo como 80% a 90% do DeepL.Mas, para usar esse modelo, o computador do usuário precisa ter mais de 23 GB de VRAM. Além disso, como a velocidade de tradução fica dezenas de vezes mais lenta, é preciso aplicar a tecnologia
vllmpara acelerar. Nesse caso, a velocidade melhora bastante, mas passa a ser indispensável usar Linux. Ou seja, só “desenvolvedores que usam uma 4090 e Linux” conseguem testar o modelo da Yanolja.É com isso que estou quebrando a cabeça agora. Uma pena.
Precisa de mais explicação?
O modelo-base do NHNDQ é o
facebook-nllb, um modelo de tradução multilíngue para 200 idiomas.Por isso, às vezes ele acaba produzindo esse tipo de língua alienígena.
Como a qualidade da tradução para o coreano ainda parecia ter algumas limitações, achei que eles tinham dado ao produto o nome a partir do apelido
도더리, protagonista do incidente do Freegate, então não pude deixar de mencionar o lendário erro de uso de tradutor “必要韓紙” que saiu desse caso.Será que era necessário? Que história triste...
Parece que houve algum incidente complicado. Mesmo lendo, não consigo entender direito, aff.
O nome Dodari foi criado em uma conversa com o modelo mixtral-7bx8.
No começo, a IA recomendou o nome
Eoneodari, mas eu precisava de alguma imagem clara e fácil de desenhar, então, por brincadeira, perguntei se “Dodari” não seria uma opção. Eu mesmo achava que era algo meio sem sentido.Mas a IA respondeu que Dodari era muito bom, no sentido de “ponte que ajuda”. Foi uma interpretação que eu nunca tinha imaginado, e achei bem original. Foi assim que surgiu o nome Dodari.
Foi um caso de bastante tempo atrás, mas na época ficou relativamente famoso nas comunidades de internet da Coreia.
Resumindo mais ou menos, foi o seguinte.
Dodoride um café do Naver publicou um aviso dizendo que faria uma compra coletiva de um CD de música japonesa de edição limitada por 70 mil wonDodorio expulsou do café, fazendo a situação crescerDodoridivulgou dizendo serem trocas com uma empresa japonesa, apareceram erros absurdos de uso de tradutor, como “必要韓紙”, e assim o caso acabou ficando conhecido também fora do grupoDodoriera o tipo de pessoa com uma mitomania bem séria, e a maior parte do que ele postava na internet sobre a própria vida era cheia de fanfarronice sem sentido e mentirasAliás, eu também já passei às vezes por situações em que um modelo de linguagem grande apresenta uma interpretação totalmente inesperada, mas que parece plausível.
Acho que esse fenômeno de perceber, em conversas, pontos que a pessoa sozinha não teria notado, agora também está sendo experimentado nas conversas com máquinas.
Nossa. Mas parece que não foi preso.
Pessoalmente, acho o ChatGPT certinho demais e sem graça, mas o Mixtral, talvez por não ter censura, torna a conversa bem interessante.
Segundo o conteúdo da wiki, ele chegou a ser processado, mas aparentemente recebeu clemência depois de pedir desculpas insistentemente e o caso acabou sendo encerrado. Na época em que foi processado, sua condição era a de agente de serviço público alternativo.
No meu caso, por limitações de desempenho do PC pessoal, ainda não cheguei a usar diretamente um LLM local. Tenho usado só até o nível do GPT-4, mas estou pensando em assinar o Claude-3 também.
Desde a execução do modelo no Huggingface até a configuração do
venve a implementação do serviço web, foi um exemplo completo e muito útil. Obrigado por compartilhar.Fico muito feliz por ter podido ajudar. Eu é que agradeço ainda mais.