ChatGPT é um modelo de 20B
(arxiv.org)No artigo submetido pela Microsoft Research à EMNLP 2023, "CodeFusion: A Pre-trained Diffusion Model for Code Generation", foi revelado que o ChatGPT (gpt-3.5-turbo) tem 20B parâmetros.
- T5 (
t5-large): 770M - CodeT5 (
codet5-large): 770M - GPT3 (
text-davinci-003): 175B - ChatGPT (
gpt-3.5-turbo): 20B
5 comentários
Esse tamanho faz sentido? Pelo que ouvi de quem trabalha com IA, ficaram horrorizados...
All you need is 4090
Originalmente, o tamanho em parâmetros do GPT-3.5 também não tinha sido divulgado?
Eu simplesmente achava que era o GPT-3 175B com RLHF, mas pelo visto não era isso..
https://arxiv.org/abs/2310.17680v1 A v1 ainda pode ser vista.
Parece que estão dizendo: "There are some errors in the paper and we need to retract it"
Não sei onde está o erro, mas se só alguns números estiverem errados, provavelmente fizeram uma simples revisão... então é bem possível que 20B esteja correto, né?