OpenELM: família eficiente de modelos de linguagem com framework open-source de treinamento e inferência

(arxiv.org)

2 pontos por brainer 2024-04-25 | 1 comentários | Compartilhar no WhatsApp

• O OpenELM é apresentado como um modelo de linguagem aberto de ponta que promove reprodutibilidade e transparência no campo dos grandes modelos de linguagem. Ao usar uma estratégia de escalonamento por camada, o OpenELM aloca parâmetros de forma eficiente dentro de cada camada do modelo Transformer para melhorar a precisão. Por exemplo, com um orçamento de cerca de 1 bilhão de parâmetros, o OpenELM supera o OLMo em 2,36% enquanto requer apenas metade dos tokens de pré-treinamento.

• Diferentemente da prática anterior, que fornecia apenas os pesos do modelo e o código de inferência, o OpenELM oferece um framework abrangente para treinar e avaliar modelos de linguagem usando conjuntos de dados publicamente disponíveis. Isso inclui logs de treinamento, vários checkpoints e configurações de pré-treinamento. Além disso, é fornecido código para converter os modelos para a biblioteca MLX para inferência e ajuste fino em dispositivos Apple.

• O lançamento do OpenELM tem como objetivo fortalecer a comunidade de pesquisa aberta ao fornecer acesso a um framework completo de treinamento e inferência, incentivando futuros esforços de pesquisa aberta. O código-fonte, os pesos de modelos pré-treinados e as receitas de treinamento estão facilmente disponíveis, junto com o acesso aos modelos no Hugging Face.

1 comentários

cosine20 2024-04-25

Apple OpenELM 3B: 24,80 MMLU
Microsoft Phi-3-mini 3.8b: 68,8 MMLU

Pelo que vi nas reações por aí, dizem que o MMLU está muito baixo e que os datasets usados no treinamento são um pouco antigos.
Também há quem diga que, por ser um modelo antigo, ele foi open-sourced de propósito...

OpenELM: família eficiente de modelos de linguagem com framework open-source de treinamento e inferência

Leituras relacionadas

1 comentários