Yi - LLM bilíngue open source de próxima geração

xguru · 2024-03-12T10:03:02+09:00

Modelo de linguagem de grande porte open source de próxima geração, treinado do zero por desenvolvedores Projetado como um modelo bilíngue, foi treinado com um corpus multilíngue de 3T, demonstrando forte desempenho em compreensão de linguagem, raciocínio de senso comum, compreensão de leitura e mais Baseado em modelos de linguagem pré-treinados de 6B e 34B, e expandido para modelos de chatbot, modelos de contexto longo de 200K, modelos com upscale de profundidade e modelos visão-linguagem O modelo Yi-34B-Chat Ficou em 2º lugar no leaderboard do AlpacaEval, atrás apenas do GPT-4 Turbo, superando outros LLMs Supera os modelos open source existentes tanto em inglês quanto em chinês, ficando em 1º lugar em diversos benchmarks Adota a mesma arquitetura de modelo do Llama, mas não é um modelo derivado do Llama. Não utiliza os pesos do Llama Disponível em vários tamanhos, com possibilidade de ajuste fino do modelo para atender a requisitos específicos Modelos de chat Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits Modelos base Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 pontos por xguru 2024-03-12 | 1 comentários | Compartilhar no WhatsApp

Modelo de linguagem de grande porte open source de próxima geração, treinado do zero por desenvolvedores
Projetado como um modelo bilíngue, foi treinado com um corpus multilíngue de 3T, demonstrando forte desempenho em compreensão de linguagem, raciocínio de senso comum, compreensão de leitura e mais
Baseado em modelos de linguagem pré-treinados de 6B e 34B, e expandido para modelos de chatbot, modelos de contexto longo de 200K, modelos com upscale de profundidade e modelos visão-linguagem
O modelo Yi-34B-Chat
- Ficou em 2º lugar no leaderboard do AlpacaEval, atrás apenas do GPT-4 Turbo, superando outros LLMs
- Supera os modelos open source existentes tanto em inglês quanto em chinês, ficando em 1º lugar em diversos benchmarks
Adota a mesma arquitetura de modelo do Llama, mas não é um modelo derivado do Llama. Não utiliza os pesos do Llama
Disponível em vários tamanhos, com possibilidade de ajuste fino do modelo para atender a requisitos específicos
- Modelos de chat
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- Modelos base
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

1 comentários

xguru 2024-03-12

Opiniões no Hacker News

O modelo Yi-34B-Chat ficou em 2º lugar no leaderboard do AlpacaEval, atrás apenas do GPT-4 Turbo, superando outros LLMs como GPT-4, Mixtral e Claude.
O modelo Yi-34B ficou em 1º lugar entre os modelos de código aberto nos benchmarks em inglês e chinês. Isso tem como base o Hugging Face Open LLM Leaderboard (modelos pré-treinados) e o C-Eval.
O código-fonte do repositório segue a licença Apache 2.0, mas os pesos não.
O modelo Yi falha em certos prompts de teste. Mesmo após várias tentativas, o Yi escolheu um vencedor diferente entre as respostas a cada vez.
O nome "01.ai" sugere um mau presságio, pois é igual ao nome do primeiro Estado de IA no filme 'Matrix', que travou guerra contra a humanidade e escravizou os humanos.
O desempenho do modelo Yi é atribuído à qualidade dos dados, resultado de esforços de engenharia de dados.
O modelo Yi 34B Chat não teve um bom desempenho no benchmark NYT Connections e ficou em 22º no leaderboard baseado em Elo do LMSYS. Em chinês, ele apresenta desempenho melhor.
Ver a melhora no desempenho desses modelos traz esperança de que, em 2 ou 3 anos, LLMs mobile-first possam melhorar conversão de texto em fala e previsão de digitação, além de reduzir bastante o consumo de bateria.
Também existe um novo modelo chamado Yi-9B.

Yi - LLM bilíngue open source de próxima geração

Leituras relacionadas

1 comentários

Opiniões no Hacker News