- O artigo recente do DeepSeek-OCR explora a possibilidade de grandes modelos de linguagem (LLMs) serem treinados recebendo pixels de imagem diretamente como entrada, em vez de texto
- Essa abordagem propõe pular a etapa tradicional de OCR (reconhecimento óptico de caracteres) e passar as informações visuais diretamente ao modelo
- Ao mencionar esse artigo, Karpathy levanta a dúvida sobre se entradas em pixels podem oferecer um contexto mais rico do que tokens de texto
- Essa ideia se conecta com a direção de avanço da IA multimodal e explora experimentalmente se modelos de linguagem podem internalizar capacidades de compreensão visual
- Essa discussão é vista como uma linha de pesquisa importante que pode redefinir no futuro a estrutura de entrada e o paradigma de treinamento dos LLMs
Conceitos centrais do artigo DeepSeek-OCR
- O DeepSeek-OCR propõe uma arquitetura de grande modelo de linguagem que, em vez da entrada tradicional baseada em texto, processa diretamente os dados de pixels de imagens de documentos
- Sistemas tradicionais de OCR extraem o texto da imagem e depois o enviam ao modelo de linguagem, mas nesse processo se perdem a forma dos caracteres, o layout e o contexto visual
- Para reduzir essa perda, o DeepSeek-OCR usa informações visuais no nível de pixels diretamente como entrada do modelo
- O modelo foi projetado para compreender ao mesmo tempo diversos elementos visuais dentro da imagem, como letras, tabelas, fórmulas e diagramas
- Com isso, ele pode realizar não apenas reconhecimento simples de texto, mas também compreensão da estrutura do documento e inferência de significado
A provocação de Karpathy
- Em uma thread no Twitter, Karpathy cita o artigo ao levantar a pergunta: “pixels são uma entrada melhor do que texto?”
- Ele aponta que a forma atual de treinar LLMs apenas com tokens de texto pode causar perda de informação
- Em especial, ele menciona que, se modelos de linguagem puderem aprender diretamente o contexto visual, seria possível uma arquitetura de aprendizado integrada que elimina a etapa de OCR
- Karpathy avalia que essa abordagem tem potencial para aumentar a capacidade de generalização do modelo e a compreensão multimodal
- Ainda assim, ele também destaca limitações práticas, como o alto custo computacional das entradas em pixels e a dificuldade de construir datasets em larga escala
Significado técnico e impacto potencial
- Entradas baseadas em pixels têm a vantagem de maior densidade de informação e preservação do contexto visual em comparação com entradas baseadas em texto
- Por exemplo, em documentos com tabelas ou fórmulas, informações estruturais podem se perder no processo de conversão para texto, enquanto a entrada em pixels mantém isso intacto
- Por outro lado, a entrada em pixels traz problemas como aumento no número de parâmetros do modelo, elevação do custo de treinamento e redução da velocidade de inferência
- Por isso, em aplicações reais, uma abordagem híbrida entre texto e pixels é citada como alternativa mais realista
- Essa discussão é vista como uma exploração experimental sobre se LLMs podem ir além da simples compreensão de linguagem e internalizar capacidades de percepção visual e espacial
Implicações para a indústria
- Em setores que lidam com estruturas documentais complexas, como processamento de documentos, finanças, jurídico e saúde, a abordagem do DeepSeek-OCR tem grande relevância
- Por exemplo, ela pode viabilizar a construção de sistemas de IA capazes de compreender diretamente a disposição visual de contratos ou faturas digitalizados
- A discussão levantada por Karpathy incentiva uma reavaliação fundamental dos formatos de entrada em IA e pode influenciar a direção futura do design de LLMs
- LLMs baseados em entrada por pixels podem levar à substituição ou integração das tecnologias de OCR e vêm sendo vistos como um novo ponto de inflexão na pesquisa em IA multimodal
1 comentários
Comentários do Hacker News
Não é pixel, e sim percel. Pixel é um ponto da imagem, mas percel seria uma unidade de informação perceptual, podendo incluir som, sensação e até tokens de pensamento
No caso dos humanos, percebemos percels combinando vários sentidos, e redes neurais (especialmente LLMs) não processam percels isoladamente, mas sim dentro do contexto dos percels vizinhos
É uma pena que haja grande potencial para pesquisa interdisciplinar, mas seja tão difícil conseguir financiamento por não se encaixar nos moldes existentes
“Kill the tokenizer” é uma proposta radical, mas fundamental
Tokenização é apenas um hack provisório para quantificar a linguagem, e distorce a sua essência
A ideia de que pixels podem ser uma unidade de representação mais poderosa é estranha, mas alguém precisa tentar uma abordagem nova
Por isso, entrada baseada em visão parece uma evolução natural
Se, em vez de renderizar texto e lê-lo com OCR, codificássemos amostras de voz com TTS, isso talvez fosse mais eficiente do que pixels. Claro, dependeria da resolução ou da taxa de amostragem
Como pesquisa relacionada interessante, há um artigo de Lex Flagel e outros que converteu dados de sequências de DNA em imagens e os treinou com CNNs
Como resultado, a CNN conseguiu reproduzir métricas genéticas que antes eram obtidas por análise textual convencional
Link do artigo
O centro da discussão recente é a consciência de que usamos uma abstração com perda (lossy abstraction) ao representar linguagem para máquinas
Tokenização é apenas uma delas, e pixels ou sinais de voz são outras aproximações
O verdadeiro valor desses experimentos está em testar as hipóteses de projeto da arquitetura atual
Uma abordagem que aprende alinhamento multimodal pode descobrir uma estrutura latente melhor ou um método de treinamento melhor, o que pode levar a melhorias nos codificadores de texto existentes
Especialmente em línguas nas quais os limites entre palavras são ambíguos, formas alternativas de codificação podem ajudar muito
A ideia do artigo de “compressão de informação → janela de contexto curta → ganho de eficiência” é interessante,
mas fico na dúvida se, ao variar tamanho de letra, fonte e espaçamento, a taxa de compressão não poderia até piorar
Concordo com o argumento do Karpathy.
Uma das vantagens dos tokens de texto é que eles aprendem uma compreensão implícita do método de entrada (teclado QWERTY)
Por exemplo, “Hello” e “Hwllo” são percebidos como semanticamente próximos por causa das teclas adjacentes no teclado
Isso exigiria mais treinamento, mas no fim permitiria obter uma capacidade de reconhecimento mais generalizada
Também é possível gerar erros de digitação em imagens para treinamento, então não acho que isso seja um grande problema
Quando penso em mim mesmo, ouço na cabeça um fluxo de palavras
Não como página ou imagem, mas como uma sequência de palavras em forma de som
A tokenização atual pode ser ineficiente. A linguagem já possui uma estrutura de compressão em alto nível,
mas pode existir uma forma melhor de representação no espaço latente
mas a arquitetura atual de LLMs é ineficiente para lidar com uma distribuição de saída grande demais
Ainda parece cedo para essa abordagem se tornar prática.
Sempre que o ChatGPT sugere “que tal visualizar isso como imagem?”, o resultado vem cheio de alucinações (hallucinations)
O que se está discutindo aqui é converter texto em imagem e fornecê-lo como entrada para um LLM, não gerar imagens
Em discussões recentes relacionadas, há o caso de rodar o DeepSeek-OCR no Nvidia Spark e o projeto DeepSeek OCR.
Ambos foram bastante discutidos em outubro de 2025.