Raciocínio em modelos de linguagem grandes: uma perspectiva geométrica

(arxiv.org)

1 pontos por GN⁺ 2024-07-09 | 1 comentários | Compartilhar no WhatsApp

Interpreta o desempenho de raciocínio dos LLMs não como uma simples questão de tamanho do modelo, mas pela geometria das camadas Transformer, abordando a conexão em que a densidade do grafo de self-attention altera a dimensão intrínseca da entrada do MLP
O MLP divide o espaço de entrada em várias regiões afins por partes; à medida que a dimensão intrínseca da entrada aumenta, ele pode criar mais regiões e aproximar funções não lineares com maior granularidade
No grafo de attention em que tokens são vistos como nós, o aumento do número de heads ou do tamanho do contexto eleva a densidade do grafo e, como resultado, também pode ampliar o espaço de representações tratado pelo MLP
Em experimentos com GSM8K-Zero e Llama 3 8B/70B Instruct, ao anexar de 1 a 10 exemplos few-shot, o aumento da dimensão intrínseca da última camada se mostrou fortemente associado à melhora na taxa de acerto
O aumento da dimensão intrínseca da primeira camada pode ocorrer até ao anexar apenas tokens aleatórios, portanto tem baixo poder explicativo; a melhoria real de raciocínio aparece com mais clareza quando um contexto relevante enriquece as representações da camada final

Por que enxergar a capacidade de raciocínio pela geometria

No uso real de LLMs, a melhoria da capacidade de raciocínio é um desafio central, e modelos como GPT-4 e Llama 3 demonstram forte desempenho em várias tarefas
As abordagens existentes de melhoria se dividem, em linhas gerais, em duas frentes
- Aumento do tamanho do modelo: há casos em que modelos maiores demonstram melhor capacidade de raciocínio
- Aumento do tamanho do contexto: são usados métodos que aumentam os tokens de entrada, como chain of thought, retrieval augmented generation e prompting baseado em exemplos
Entradas mais longas e modelos maiores podem aumentar o custo computacional e a latência de inferência no uso prático
Este estudo examina a relação entre a expressividade dos LLMs e sua capacidade de raciocínio por meio da geometria das camadas Transformer
A pergunta central é como o comprimento da sequência de entrada e o número de attention heads afetam a geometria dos LLMs, especialmente a dimensão intrínseca do bloco de self-attention

Particionamento do espaço pelo MLP e expressividade

Um MLP que usa não linearidades como ReLU, leaky-ReLU, valor absoluto e max-pooling pode ser visto como uma função afim contínua por partes que divide o espaço de entrada em várias regiões
Cada região é associada a um mapa afim que processa a entrada naquele trecho
- Se a função-alvo for linear em determinado intervalo, uma única região é suficiente
- Se a função-alvo for não linear, várias regiões são necessárias para aproximar a curvatura
Em um experimento toy de aproximação da função seno, à medida que o número de neurônios ocultos aumenta de 50 para 500, surgem mais regiões e a aproximação fica mais refinada
A posição dessas regiões no espaço de entrada depende dos dados, e o tamanho, a uniformidade e as mudanças estruturais dos dados de treinamento podem afetar a densidade do particionamento
Mesmo com o mesmo número de neurônios, quando a dimensão intrínseca da entrada aumenta, o número de regiões que o MLP pode criar cresce exponencialmente

Como a dimensão intrínseca surge no Transformer

A camada Transformer de um LLM causal é composta por self-attention, multi-head attention, MLP, residual connection e layer normalization
O attention map pode ser interpretado como um grafo em que os tokens são nós e os valores de attention são pesos das arestas
A densidade do grafo de self-attention indica o nível de conexão entre tokens, e essa densidade está ligada à dimensão intrínseca da entrada do MLP
Segundo o Teorema 2.1, cada linha da saída de multi-head attention fica dentro da soma de Minkowski dos convex hulls de single-head, e a dimensão efetiva é limitada pela soma do número de tokens com valores de attention maiores que 0 em cada head
A soft intrinsic dimension usada no estudo é definida como o número de tokens com valores de attention acima do threshold ε
- Nos experimentos, ε é definido com base nas estatísticas e na distribuição dos valores de attention
- Em todos os experimentos, o threshold foi definido como 0,1

Como attention heads e tamanho do contexto ampliam a expressividade

Como a dimensão intrínseca da entrada do MLP é determinada pelo attention map, quanto mais denso for o grafo de attention, mais regiões o MLP pode criar
As formas de aumentar a dimensão intrínseca podem ser resumidas em duas
- Aumentar o número de attention heads: os efeitos de várias heads são somados, podendo ampliar a dimensão efetiva
- Modificar o prompt ou expandir o contexto: mudar a entrada pode aumentar a densidade do grafo de attention
O experimento toy com um LLM de uma camada aproxima a função seno com a estrutura embedding → attention block → MLP de 1 camada oculta
Na comparação entre context length 10/100 e número de heads 1/10, o número de regiões criadas pelo MLP no espaço de entrada aumenta conforme crescem o tamanho do contexto e o número de heads
Alterar o número de heads pode exigir pre-training ou fine-tuning, mas o tamanho do contexto pode ser ajustado sem mexer nos weights do modelo

Experimentos com GSM8K-Zero e Llama 3

Os experimentos avaliam o desempenho de resposta do LLM a perguntas de raciocínio usando o dataset GSM8K-Zero
As condições consistem em um baseline 0-shot e variações de prompt de 1 a 10-shot
- Os exemplos few-shot são pares de pergunta e resposta sorteados aleatoriamente do training set do GSM8K-Zero
- Nos experimentos comparativos, são anexados no início tokens aleatórios ou texto embaralhado de exemplos few-shot
Os modelos avaliados são Llama3 8B Instruct e Llama3 70B Instruct
O base prompt é composto por cerca de 300 samples do GSM8K-Zero em que houve resposta incorreta
A correção das respostas é avaliada por meio de prompting do modelo Mixtral 8×22B Instruct

O ID da última camada se alinha melhor ao desempenho

Quando exemplos few-shot são anexados no início, a probabilidade de obter a resposta correta aumenta nos casos em que a dimensão intrínseca cresce na última camada
Tanto no Llama3 8B quanto no 70B Instruct, observa-se a tendência de que, quanto maior a variação do ID da final layer, maior a proporção de correct response
Na primeira camada, a dimensão intrínseca pode aumentar independentemente do tipo de token anexado
- O attention graph da primeira camada se comporta como uma distribuição uniforme sobre todos os tokens
- O experimento com random token mostra que o aumento do ID da primeira camada não está necessariamente ligado ao desempenho de raciocínio
Na condição com random token, o aumento do ID foi limitado ou negativo, e a proporção de correct response saturou em cerca de 40%
Na Figure 8, que compara várias layers, o ID da última camada aparece como um sinal mais útil para separar se a resposta está correta, independentemente do tamanho do modelo
Em LLMs, cada token produzido por self-attention heads é transformado independentemente no MLP, e um MLP com particionamento mais refinado pode aplicar um mapa afim mais adaptativo a cada token
Como a previsão é feita por uma combinação linear dos embedded tokens, os erros de aproximação por token podem se acumular, e um particionamento mais refinado ao redor de cada token pode reduzir o erro de aproximação da previsão final
A forma como a dimensão intrínseca e o particionamento por mapas afins se conectam à capacidade de generalização dos LLMs ainda não foi suficientemente explorada neste estudo nem na maior parte dos trabalhos relacionados

1 comentários

GN⁺ 2024-07-09

Comentários do Hacker News

O valor da IA parece uma curva em banheira. No nível baixo, é um autocompletar superpoderoso que escreve razoavelmente bem trechos de código de 1 a 3 linhas; no nível alto, é boa para explicar conceitos de alto nível relacionados à tarefa em questão.
Na faixa intermediária, não funciona bem. Quando se pede para ela montar um plano de várias etapas, cada peça até pode parecer boa isoladamente, mas elas não se encaixam entre si. A IA não tem a sensação de que “estas quatro partes precisam estar firmemente conectadas para formar um todo”; parece que, ao criar quatro etapas para ir de A a B, ela simplesmente emenda caminhos diferentes de qualquer jeito.
- Isso não é uma curva em banheira. Tarefas de nível baixo e tarefas de nível “alto” são, no fim, a mesma geração probabilística de texto.
  Ela não está raciocinando sobre código, nem raciocinando sobre as explicações que fornece. A IA não pensa, não cria um modelo interno do problema apresentado; ela apenas chuta. A razão pela qual essas tarefas “intermediárias” falham é que, para chegar à resposta correta, é necessário raciocínio abstrato.
- Pensando nos dados de treinamento, não há tantos exemplos de planos em várias etapas. Se a estrutura aprende como conceitos, isto é, vetores de alta dimensão, se encaixam, ela não consegue ir bem quando não há exemplos de raciocínio suficientes.
  No fim, isso deve melhorar à medida que se acumularem dados sintéticos e materiais como boas descrições de objetivos junto com o código que implementa esses objetivos.
- O eixo de nível baixo versus nível alto talvez não seja uma boa métrica para avaliar IA. É preciso aplicar o truque do kernel a essa métrica para separar a altura do nível do problema de planejamento em múltiplas etapas.
  Em outras palavras, deveríamos usar outra dimensão para distinguir esses três problemas.
Não sei se vocês se lembram do jogo “Mad Libs”. É aquele jogo em que você preenche lacunas como “verbo”, “substantivo” e “adjetivo”, e então, na página seguinte, essas palavras formam uma história ridícula. Como não há contexto quando você coloca as palavras inicialmente, o resultado é gramaticalmente correto, mas sem sentido no contexto, e por isso é engraçado.
Um LLM é como um Mad Libs com um preditor de contexto acoplado. Ele produz uma saída gramaticalmente correta, e, como correlações estatísticas em geral geram resultados significativos, o preditor de contexto reduz o nonsense. Mas não há “raciocínio” aqui; há apenas preenchimento de moldes gramaticais e autocompletar estatístico.
- Certo, mas é um modelo de autocompletar de complexidade quase inimaginável. E uma grande parte do raciocínio humano é estatisticamente previsível a partir de textos, de modo que, com um bom modelo de autocompletar, é possível de fato obter comportamento parecido com raciocínio.
  O fato de não funcionar em todos os casos não deve nos levar a subestimar o quão surpreendentemente bem isso funciona, nem o quanto é inesperado o simples fato de funcionar. O ponto central do texto original também é investigar como fenômenos semelhantes a raciocínio emergem em um modelo de autocompletar suficientemente grande.
- Dizer que é “apenas preenchimento de moldes gramaticais e autocompletar estatístico” é a hipótese do papagaio estocástico, e ela é repetida sempre que um artigo sobre LLM aparece no HN.
  Essa hipótese não é apenas uma afirmação filosófica; ela gera previsões refutáveis, e os experimentos já a refutaram suficientemente. LLMs têm modelos de mundo. Um artigo famoso sobre esse tema é o OthelloGPT; mais recentemente, há o Transformers Represent Belief State Geometry in their Residual Stream.
- Não entendo por que as pessoas continuam tão convencidas de que “raciocínio” não é alguma forma de preenchimento de moldes gramaticais e autocompletar estatístico.
- Vejo raciocínio como preenchimento de moldes gramaticais e autocompletar estatístico suficientemente avançados.
  Também vale lembrar que transformações gramaticais são Turing-completas: https://wiki.c2.com/?RewriteRules
- Foi com base nessa ideia, mais precisamente em ad-libs, que dei nome a uma biblioteca TypeScript para preenchimento de lacunas com LLM: https://github.com/gsuuon/ad-llama/
Parece haver dois lados na discussão. Há a visão de que, ao absorver uma quantidade enorme de texto, o modelo de alguma forma criou uma capacidade de raciocínio — ou seja, a ideia de que o raciocínio surgiu depois da linguagem.
Por outro lado, também há a visão de que o raciocínio já foi feito por humanos e registrado em texto; então, quando se faz uma pergunta como “depois de Julieta, Romeu deveria ter procurado outro amor?”, o modelo estaria refletindo de volta um conjunto de raciocínios presente em bilhões de ensaios de literatura inglesa. Será que estou deixando algo passar?
- Os dois parecem dois lados da mesma moeda. Um LLM é treinado fundamentalmente para fazer completação de texto, e o treinamento é o processo de encontrar, dentro de uma dada estrutura de modelo e de um certo número de parâmetros, a forma mais eficaz de fazer isso.
  Partindo de “um LLM absorve uma quantidade enorme de texto”, um modelo simples poderia completar texto por memorização. Mas, para completar corretamente 234 * 452 =, é muito mais simples de fato calcular do que memorizar todas as multiplicações possíveis. Da mesma forma, se ele consegue entender o mundo e raciocinar sobre ele, consegue completar melhor as frases escritas por humanos. Portanto, é de esperar que um modelo treinado suficientemente bem, com parâmetros suficientes para fazer isso, mas não tantos a ponto de simplesmente sobreajustar, desenvolva algum grau de capacidade de raciocínio.
  Partindo de “há muito raciocínio no conjunto de treinamento”, mesmo no estágio de memorização é possível obter resultados que parecem raciocínio. Mas a lógica de que o modelo desenvolveria raciocínio real continua válida e fica ainda mais forte. Se você precisa completar o argumento de alguém, isso é muito mais fácil quando consegue acompanhar o fluxo de pensamento dessa pessoa.
- Vale olhar para testes mais amplos de raciocínio usados hoje em LLMs, como o MuSR. Como as perguntas são recém-criadas, fica claro que é difícil explicá-las apenas pela segunda interpretação: https://arxiv.org/abs/2310.16049
- O motivo pelo qual esses modelos “raciocinam”, ou, mais precisamente, conseguem lidar com conceitos complexos, é bastante intuitivo. Ao processar volumes enormes de texto, eles criam representações internas em que os conceitos são representados como nós simples, isto é, neurônios ou agrupamentos de neurônios.
  Assim, eles de fato destilam conhecimento. Também dá para pensar nisso como uma análise de componentes principais muito boa, que extrai vários aspectos importantes, ou como um grafo semântico criado automaticamente. Quando o conhecimento é destilado, fica fácil construir em cima dele combinando conceitos. Não há nenhum segredo especial.
- Dando uma olhada no artigo, parece que ele reconhece essa questão, mas meio que passa por cima dela.
  Ele diz que, de fato, está claro que capacidade de aproximação e generalização não são o mesmo conceito. Mas também afirma que ainda não está definido se a capacidade de raciocínio dos LLMs está ligada à generalização e que, como esses conceitos ainda são difíceis de delimitar com precisão, a parte experimental se concentra na dimensão intrínseca, ou seja, na relação entre poder expressivo e capacidade de raciocínio.
- Há muita coisa embutida na palavra reflete de volta, em “o modelo reflete de volta essa resposta”. Será que é mesmo tão simples?
  Isso quer dizer que o modelo adota a visão de um ensaio específico de crítica literária que “leu”? Ou que assume alguma visão “média” do conjunto? Para começo de conversa, como se poderia definir uma visão “média” sobre um tema?
  Essa é uma questão interessante que atinge o cerne do que é um LLM, mas este artigo tem um foco muito mais restrito e provavelmente não vai dar essa resposta.
O que raciocínio tem a ver com geometria? É algo parecido com a ideia de que há formas geométricas inerentes a conceitos diferentes? Uma visão platônica ou intelectualista da geometria da razão? Tive dificuldade para entender boa parte do artigo
- Acrescentando, depois de ler um pouco mais do artigo, sobre de onde vem a geometria
  Este artigo[1], uma das referências citadas pelo paper, mostra que as camadas não lineares das redes neurais profundas modernas dividem a entrada em regiões e produzem a saída aplicando uma transformação afim[2] por região. Ele também trata de como isso se conecta à quantização vetorial e ao agrupamento k-means
  Portanto, a perspectiva geométrica aqui não se refere à geometria do ensino médio, mas a conceitos mais abstratos como espaços vetoriais[3] ou geometria computacional combinatória[4]
  O paper submetido mostra que essa divisão está diretamente ligada à capacidade de aproximação da rede neural. Em seguida, propõe que, à medida que a capacidade de aproximação aumenta, as respostas a problemas matemáticos em forma de texto melhoram; por isso, a capacidade de aproximação se correlacionaria com a capacidade de raciocínio dos LLMs
  [1]: https://arxiv.org/abs/1805.06576v2
  [2]: https://en.wikipedia.org/wiki/Affine_transformation
  [3]: https://en.wikipedia.org/wiki/Vector_space
  [4]: https://en.wikipedia.org/wiki/Computational_geometry#Combina...
- Redes neurais modernas usam muita álgebra linear, especialmente a arquitetura Transformer[1], que impulsiona os LLMs modernos
  Como a álgebra linear está intimamente relacionada à geometria[2], é bastante natural que existam aspectos geométricos que determinem capacidade e desempenho
  Neste paper, especificamente, eles observam a dimensão intrínseca[3] das camadas de atenção e examinam como ela se correlaciona com o desempenho dos LLMs
  [1]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
  [2]: https://en.wikipedia.org/wiki/Linear_algebra#Relationship_wi...
  [3]: https://en.wikipedia.org/wiki/Intrinsic_dimension
- A ideia de que “há formas geométricas inerentes a conceitos diferentes” está correta. Na verdade, também é possível construir fundamentos da matemática sobre esse conceito e criar “raciocínio” e provas em certo sentido
  Sistemas de tipos dependentes funcionam desse modo. Vale procurar por HoTT e teoria da homotopia modal. Lean4, Coq e provadores de teoremas também operam dessa forma
  Pensando nos fundamentos do cálculo lambda ou da álgebra booleana, tratamos objetos matemáticos organizados sobre reticulados ou semirreticulados formados por conjuntos parcialmente ordenados como uma série de transformações. Por exemplo, na álgebra booleana, a implicação fornece uma ordem parcial
  Seria interessante entender se a densidade do mecanismo de atenção segue uma progressão parecida com a de sistemas de tipos dependentes, e se há uma conexão entre os tipos dependentes envolvidos em provas e o espaço correspondente dentro de um LLM, por meio de uma relaxação contínua semelhante a operadores de proximidade e de transformações que vão de conceitos de alto nível a tokens de saída
  Já vimos que, em embeddings, a geometria tem significado. Certos conceitos simples correspondem a direções vetoriais. Não seria nada surpreendente se o raciocínio sobre conceitos dependentes correspondesse a subespaços complexos no caminho percorrido pelo LLM e, com treinamento suficiente, essa conexão se aproximasse cada vez mais da estrutura lógica da prova correspondente
- Embora este paper não esteja dizendo isso, daria para criar aqui um benchmark sintético no estilo AlphaGeometry[1]. Seria um método em que um motor de geometria gera 100 milhões de problemas em forma de texto para o LLM resolver
  Problemas de geometria são fáceis de criar e resolver mecanicamente, mas não há motivo para um LLM Transformer genérico ser particularmente bom neles, e há a vantagem de poder aumentar a escala enormemente. Diferentemente de benchmarks com apenas 164 problemas, como o HumanEval, também fica mais fácil evitar a crítica de que o LLM memorizou as respostas
  1: https://deepmind.google/discover/blog/alphageometry-an-olymp...
- Parece que estão falando de embeddings de palavras. Aqui, o contexto é incorporado em um espaço geométrico de alta dimensão, e certas dimensões podem capturar coisas como o quanto uma palavra é “feminina” ou o quanto é “próxima de azul”
Fico curioso sobre o que significa região aqui, se quanto mais regiões melhor, como as regiões são diferenciadas e se uma região pode ser o mesmo conceito que várias regiões relacionadas
- Pelo que entendi, regiões são os pedaços que compõem a partição da região de entrada, isto é, pedaços do espaço vetorial formado pelos pesos. Há mais detalhes a partir da seção 3.1 do paper citado[1]
  A tese desse paper é que as camadas de redes neurais profundas comuns dividem a região de entrada em várias regiões, e cada região tem sua própria transformação afim da entrada
  Com uma função de ativação arbitrária, seria preciso encontrar tanto a própria partição quanto os parâmetros da transformação afim de cada região. Mas o paper mostra que, como funções de ativação comuns são globalmente convexas, é possível explorar isso para que a partição seja completamente determinada pelos parâmetros da transformação afim de cada região
  Assim, a saída da camada para uma entrada x se torna uma “transformação afim por partes de x, dependente da partição-região”. Os parâmetros da transformação afim são, na prática, o que muda durante o treinamento; portanto, o número e a forma das regiões também mudam durante o treinamento
  O paper submetido mostra que, quanto maior o número de regiões, maior a capacidade de aproximação da camada da rede neural. Pensando no que foi dito acima, isso em si não é surpreendente, mas é usado como um passo importante na argumentação
  [1]: https://arxiv.org/abs/1805.06576v2
Como acontece em muitas discussões filosóficas, afirmar que um LLM pode “raciocinar” não significa muita coisa. “Raciocínio” não é um termo bem definido, e nem todo mundo vai concordar com uma única definição
Se você perguntar a um cientista da computação, a um filósofo continental e a um antropólogo o que é “raciocínio”, receberá respostas completamente diferentes
Se por raciocínio você quer dizer raciocínio dedutivo, como usado na matemática, e raciocínio indutivo, como usado na ciência, não há evidências de que LLMs façam isso. Também não há motivo para acreditar que só com correspondência de padrões linguísticos seja possível imitar tudo aquilo que chamamos de pensamento humano. Para sustentar isso, seria preciso definir “pensamento” de forma extremamente estreita e ignorar o fato de que somos inteligências corporificadas e que podemos conhecer a nós mesmos de maneiras transparentes e talvez pré-linguísticas. A menos que a IA seja corporificada e se torne capaz de fazer o mesmo, não acredito que ela vá “pensar” ou “raciocinar” como humanos. Continua sendo um truque estatístico muito impressionante
- https://transformer-circuits.pub/2022/in-context-learning-an...
  Há muitas evidências de que eles realizam indução
- Isso pode estar certo, mas, “se for bom o suficiente”, por que isso importa? Se eu não consigo distinguir se um usuário no Slack/Teams que resolve tickets no prazo e mantém uma qualidade de código razoável é um LLM, não me importo muito se esse ser conhece a si mesmo de maneira transparente e pré-linguística
“É só colocar mais dimensões, mano!”
Não sou da área de IA; só gosto de acompanhar de fora. Depois de dar uma olhada no artigo, meu resumo como leigo é este, e agradeço se corrigirem algo errado
Redes neurais modernas, por exemplo as camadas de perceptron multicamadas[1] usadas em LLMs, essencialmente dividem a entrada em várias regiões. O número de regiões que uma única camada MLP consegue dividir depende exponencialmente da dimensão intrínseca[2] da entrada, e o número de regiões/divisões parece aumentar a capacidade de aproximação da camada MLP
Assim, mesmo sem aumentar o número de neurônios, é possível na prática “destilar” a entrada e elevar bastante a capacidade de aproximação da camada MLP
Na arquitetura Transformer, a entrada da camada MLP é a camada de autoatenção[3]. Os autores mostram que a densidade do grafo da camada de autoatenção está fortemente correlacionada com a dimensão intrínseca da camada de autoatenção. Ou seja, quanto mais densa a camada de autoatenção, melhor o MLP pode se sair
Uma forma de aumentar a densidade da camada de atenção é adicionar mais contexto. Parece que anexar quaisquer tokens como contexto antes da pergunta e aumentar a dimensão intrínseca da camada final melhora o desempenho do LLM
O texto também diz que a arquitetura Transformer tende a acumular erros de aproximação, e que divisões mais refinadas fornecidas por camadas MLP que recebem entradas de alta dimensão intrínseca podem ajudar nisso. No entanto, o impacto disso na generalização ainda precisa ser mais pesquisado
Se os resultados se mantiverem, este artigo parece trazer bons insights para otimizar melhor redes neurais semelhantes a LLMs
[1]: https://en.wikipedia.org/wiki/Multilayer_perceptron
[2]: https://en.wikipedia.org/wiki/Intrinsic_dimension
[3]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
- Acho que fica mais intuitivo definir a densidade como o número de arestas que conectam tokens no grafo de atenção. Em termos mais simples, é o número de vezes que um token tem alguma conexão com outros tokens, dividido pelo número de tokens
  Portanto, tokens que de fato são relacionados entre si e fornecem informação são bons, mas tokens aleatórios não ajudam
  A expressão “se você anexar quaisquer tokens como contexto antes da pergunta, o desempenho do LLM melhora” não me parece precisa. O que o artigo encontrou é que anexar qualquer tipo de token antes da pergunta atual aumenta a dimensão intrínseca da primeira camada, mas esse aumento não necessariamente se correlaciona com a capacidade de raciocínio do modelo
  Dizem que a capacidade de raciocínio do LLM melhora significativamente apenas quando os tokens anexados antes aumentam a dimensão intrínseca da camada final do modelo
- O número de diferentes regiões de interesse não seria um subconjunto da dimensão de Vapnik–Chervonenkis[a] dos dados e, no caso extremo, talvez igual a ela?
  O texto original não menciona a dimensão VC
  [a] https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_di...

Raciocínio em modelos de linguagem grandes: uma perspectiva geométrica

Por que enxergar a capacidade de raciocínio pela geometria

Particionamento do espaço pelo MLP e expressividade

Como a dimensão intrínseca surge no Transformer

Como attention heads e tamanho do contexto ampliam a expressividade

Experimentos com GSM8K-Zero e Llama 3

O ID da última camada se alinha melhor ao desempenho

Leituras relacionadas

1 comentários

Comentários do Hacker News