Entrada baseada em pixels é melhor do que texto? A pergunta de Karpathy sobre o artigo DeepSeek-OCR

(twitter.com/karpathy)

3 pontos por GN⁺ 2025-10-24 | 1 comentários | Compartilhar no WhatsApp

O artigo recente do DeepSeek-OCR explora a possibilidade de grandes modelos de linguagem (LLMs) serem treinados recebendo pixels de imagem diretamente como entrada, em vez de texto
Essa abordagem propõe pular a etapa tradicional de OCR (reconhecimento óptico de caracteres) e passar as informações visuais diretamente ao modelo
Ao mencionar esse artigo, Karpathy levanta a dúvida sobre se entradas em pixels podem oferecer um contexto mais rico do que tokens de texto
Essa ideia se conecta com a direção de avanço da IA multimodal e explora experimentalmente se modelos de linguagem podem internalizar capacidades de compreensão visual
Essa discussão é vista como uma linha de pesquisa importante que pode redefinir no futuro a estrutura de entrada e o paradigma de treinamento dos LLMs

Conceitos centrais do artigo DeepSeek-OCR

O DeepSeek-OCR propõe uma arquitetura de grande modelo de linguagem que, em vez da entrada tradicional baseada em texto, processa diretamente os dados de pixels de imagens de documentos
- Sistemas tradicionais de OCR extraem o texto da imagem e depois o enviam ao modelo de linguagem, mas nesse processo se perdem a forma dos caracteres, o layout e o contexto visual
- Para reduzir essa perda, o DeepSeek-OCR usa informações visuais no nível de pixels diretamente como entrada do modelo
O modelo foi projetado para compreender ao mesmo tempo diversos elementos visuais dentro da imagem, como letras, tabelas, fórmulas e diagramas
- Com isso, ele pode realizar não apenas reconhecimento simples de texto, mas também compreensão da estrutura do documento e inferência de significado

A provocação de Karpathy

Em uma thread no Twitter, Karpathy cita o artigo ao levantar a pergunta: “pixels são uma entrada melhor do que texto?”
- Ele aponta que a forma atual de treinar LLMs apenas com tokens de texto pode causar perda de informação
- Em especial, ele menciona que, se modelos de linguagem puderem aprender diretamente o contexto visual, seria possível uma arquitetura de aprendizado integrada que elimina a etapa de OCR
Karpathy avalia que essa abordagem tem potencial para aumentar a capacidade de generalização do modelo e a compreensão multimodal
- Ainda assim, ele também destaca limitações práticas, como o alto custo computacional das entradas em pixels e a dificuldade de construir datasets em larga escala

Significado técnico e impacto potencial

Entradas baseadas em pixels têm a vantagem de maior densidade de informação e preservação do contexto visual em comparação com entradas baseadas em texto
- Por exemplo, em documentos com tabelas ou fórmulas, informações estruturais podem se perder no processo de conversão para texto, enquanto a entrada em pixels mantém isso intacto
Por outro lado, a entrada em pixels traz problemas como aumento no número de parâmetros do modelo, elevação do custo de treinamento e redução da velocidade de inferência
- Por isso, em aplicações reais, uma abordagem híbrida entre texto e pixels é citada como alternativa mais realista
Essa discussão é vista como uma exploração experimental sobre se LLMs podem ir além da simples compreensão de linguagem e internalizar capacidades de percepção visual e espacial

Implicações para a indústria

Em setores que lidam com estruturas documentais complexas, como processamento de documentos, finanças, jurídico e saúde, a abordagem do DeepSeek-OCR tem grande relevância
- Por exemplo, ela pode viabilizar a construção de sistemas de IA capazes de compreender diretamente a disposição visual de contratos ou faturas digitalizados
A discussão levantada por Karpathy incentiva uma reavaliação fundamental dos formatos de entrada em IA e pode influenciar a direção futura do design de LLMs
LLMs baseados em entrada por pixels podem levar à substituição ou integração das tecnologias de OCR e vêm sendo vistos como um novo ponto de inflexão na pesquisa em IA multimodal

1 comentários

GN⁺ 2025-10-24

Comentários do Hacker News

Não é pixel, e sim percel. Pixel é um ponto da imagem, mas percel seria uma unidade de informação perceptual, podendo incluir som, sensação e até tokens de pensamento
No caso dos humanos, percebemos percels combinando vários sentidos, e redes neurais (especialmente LLMs) não processam percels isoladamente, mas sim dentro do contexto dos percels vizinhos
- Já escrevi uma proposta de pesquisa com essa ideia. Pesquisadores de ML criticaram duramente por falta de aplicabilidade prática, mas neurocientistas apoiaram fortemente
  É uma pena que haja grande potencial para pesquisa interdisciplinar, mas seja tão difícil conseguir financiamento por não se encaixar nos moldes existentes
- Achei esse conceito tão interessante que fui procurar mais, mas não encontrei material. Fiquei curioso se é um neologismo criado por você ou se existe algum artigo ou pesquisa de referência
- No fim, fico pensando se isso não é parecido com o conceito de espaço latente (latent space). É semelhante no sentido de ser uma estrutura em que vetores relacionados ficam agrupados
- Para representar percels como vetores, parece que seria preciso mapeá-los em um espaço latente separando dimensões por modo perceptual (visão, audição etc.)
- Brincando, deu vontade de chamar de toxel em vez de percel
“Kill the tokenizer” é uma proposta radical, mas fundamental
Tokenização é apenas um hack provisório para quantificar a linguagem, e distorce a sua essência
A ideia de que pixels podem ser uma unidade de representação mais poderosa é estranha, mas alguém precisa tentar uma abordagem nova
- Quando leio, processo o texto visualmente e auditivamente ao mesmo tempo
  Por isso, entrada baseada em visão parece uma evolução natural
  Se, em vez de renderizar texto e lê-lo com OCR, codificássemos amostras de voz com TTS, isso talvez fosse mais eficiente do que pixels. Claro, dependeria da resolução ou da taxa de amostragem
- O Byte Latent Transformer da Meta tentou substituir o tokenizer, mas acabou não chamando atenção
- Nesse caso, fica a dúvida sobre com o que decodificar no momento da geração. Tokens têm um significado que vai além de uma simples representação visual, então apenas gerar imagens de texto não basta
- Texto tem densidade de informação muito alta. Por isso, ainda é eficiente como entrada
- Eu também não entendo muito bem. Como a imagem do texto poderia ser melhor do que o próprio texto? Parece mais algo como tirar uma foto da tela inteira e ainda treinar visão de câmera por cima
Como pesquisa relacionada interessante, há um artigo de Lex Flagel e outros que converteu dados de sequências de DNA em imagens e os treinou com CNNs
Como resultado, a CNN conseguiu reproduzir métricas genéticas que antes eram obtidas por análise textual convencional
Link do artigo
O centro da discussão recente é a consciência de que usamos uma abstração com perda (lossy abstraction) ao representar linguagem para máquinas
Tokenização é apenas uma delas, e pixels ou sinais de voz são outras aproximações
O verdadeiro valor desses experimentos está em testar as hipóteses de projeto da arquitetura atual
Uma abordagem que aprende alinhamento multimodal pode descobrir uma estrutura latente melhor ou um método de treinamento melhor, o que pode levar a melhorias nos codificadores de texto existentes
Especialmente em línguas nas quais os limites entre palavras são ambíguos, formas alternativas de codificação podem ajudar muito
A ideia do artigo de “compressão de informação → janela de contexto curta → ganho de eficiência” é interessante,
mas fico na dúvida se, ao variar tamanho de letra, fonte e espaçamento, a taxa de compressão não poderia até piorar
Concordo com o argumento do Karpathy.
Uma das vantagens dos tokens de texto é que eles aprendem uma compreensão implícita do método de entrada (teclado QWERTY)
Por exemplo, “Hello” e “Hwllo” são percebidos como semanticamente próximos por causa das teclas adjacentes no teclado
- Se uma IA puder ler com entrada baseada em pixels, variações como “HWLLO” ou “H3LL0” também poderão ser reconhecidas como semelhantes por similaridade visual
  Isso exigiria mais treinamento, mas no fim permitiria obter uma capacidade de reconhecimento mais generalizada
- Eu me identifico com a ideia de aprender erros de digitação (typo learning). Inclusive falei disso no meu vídeo
  Também é possível gerar erros de digitação em imagens para treinamento, então não acho que isso seja um grande problema
Quando penso em mim mesmo, ouço na cabeça um fluxo de palavras
Não como página ou imagem, mas como uma sequência de palavras em forma de som
A tokenização atual pode ser ineficiente. A linguagem já possui uma estrutura de compressão em alto nível,
mas pode existir uma forma melhor de representação no espaço latente
- A indústria conhece bem as limitações dos tokenizers. Mas implementar na prática uma forma escalável de substituí-los é muito difícil
- Modelos de imagem usam tokens de granularidade maior. Também seria possível criar, para texto, um grande vocabulário de tokens baseados em n-gramas,
  mas a arquitetura atual de LLMs é ineficiente para lidar com uma distribuição de saída grande demais
Ainda parece cedo para essa abordagem se tornar prática.
Sempre que o ChatGPT sugere “que tal visualizar isso como imagem?”, o resultado vem cheio de alucinações (hallucinations)
- Mas geração de imagem e entrada de imagem são problemas completamente diferentes
  O que se está discutindo aqui é converter texto em imagem e fornecê-lo como entrada para um LLM, não gerar imagens
Em discussões recentes relacionadas, há o caso de rodar o DeepSeek-OCR no Nvidia Spark e o projeto DeepSeek OCR.
Ambos foram bastante discutidos em outubro de 2025.

Entrada baseada em pixels é melhor do que texto? A pergunta de Karpathy sobre o artigo DeepSeek-OCR

Conceitos centrais do artigo DeepSeek-OCR

A provocação de Karpathy

Significado técnico e impacto potencial

Implicações para a indústria

Leituras relacionadas

1 comentários

Comentários do Hacker News