Killed by LLM

xguru · 2025-01-08T09:33:01+09:00

Organiza benchmarks que se tornaram inúteis com o avanço da IA (já não conseguem medir os modelos mais recentes) Ainda útil como benchmark, mas não contribui de forma significativa para a pergunta "a IA pode fazer X?" 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7 pontos por xguru 2025-01-08 | 3 comentários | Compartilhar no WhatsApp

Organiza benchmarks que se tornaram inúteis com o avanço da IA (já não conseguem medir os modelos mais recentes)
- Ainda útil como benchmark, mas não contribui de forma significativa para a pergunta "a IA pode fazer X?"
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG

3 comentários

kandk 2025-01-08

Até o SQuAD também está sumindo?

nutella 2025-01-08

Isso me lembra do Killed by Google.

xguru 2025-01-08

Ainda há pontos a favor e contra sobre alguns benchmarks específicos, mas é interessante. https://news.ycombinator.com/item?id=42606231

Killed by LLM

Leituras relacionadas

3 comentários