3 pontos por GN⁺ 2025-10-24 | 1 comentários | Compartilhar no WhatsApp
  • O artigo recente do DeepSeek-OCR explora a possibilidade de grandes modelos de linguagem (LLMs) serem treinados recebendo pixels de imagem diretamente como entrada, em vez de texto
  • Essa abordagem propõe pular a etapa tradicional de OCR (reconhecimento óptico de caracteres) e passar as informações visuais diretamente ao modelo
  • Ao mencionar esse artigo, Karpathy levanta a dúvida sobre se entradas em pixels podem oferecer um contexto mais rico do que tokens de texto
  • Essa ideia se conecta com a direção de avanço da IA multimodal e explora experimentalmente se modelos de linguagem podem internalizar capacidades de compreensão visual
  • Essa discussão é vista como uma linha de pesquisa importante que pode redefinir no futuro a estrutura de entrada e o paradigma de treinamento dos LLMs

Conceitos centrais do artigo DeepSeek-OCR

  • O DeepSeek-OCR propõe uma arquitetura de grande modelo de linguagem que, em vez da entrada tradicional baseada em texto, processa diretamente os dados de pixels de imagens de documentos
    • Sistemas tradicionais de OCR extraem o texto da imagem e depois o enviam ao modelo de linguagem, mas nesse processo se perdem a forma dos caracteres, o layout e o contexto visual
    • Para reduzir essa perda, o DeepSeek-OCR usa informações visuais no nível de pixels diretamente como entrada do modelo
  • O modelo foi projetado para compreender ao mesmo tempo diversos elementos visuais dentro da imagem, como letras, tabelas, fórmulas e diagramas
    • Com isso, ele pode realizar não apenas reconhecimento simples de texto, mas também compreensão da estrutura do documento e inferência de significado

A provocação de Karpathy

  • Em uma thread no Twitter, Karpathy cita o artigo ao levantar a pergunta: “pixels são uma entrada melhor do que texto?”
    • Ele aponta que a forma atual de treinar LLMs apenas com tokens de texto pode causar perda de informação
    • Em especial, ele menciona que, se modelos de linguagem puderem aprender diretamente o contexto visual, seria possível uma arquitetura de aprendizado integrada que elimina a etapa de OCR
  • Karpathy avalia que essa abordagem tem potencial para aumentar a capacidade de generalização do modelo e a compreensão multimodal
    • Ainda assim, ele também destaca limitações práticas, como o alto custo computacional das entradas em pixels e a dificuldade de construir datasets em larga escala

Significado técnico e impacto potencial

  • Entradas baseadas em pixels têm a vantagem de maior densidade de informação e preservação do contexto visual em comparação com entradas baseadas em texto
    • Por exemplo, em documentos com tabelas ou fórmulas, informações estruturais podem se perder no processo de conversão para texto, enquanto a entrada em pixels mantém isso intacto
  • Por outro lado, a entrada em pixels traz problemas como aumento no número de parâmetros do modelo, elevação do custo de treinamento e redução da velocidade de inferência
    • Por isso, em aplicações reais, uma abordagem híbrida entre texto e pixels é citada como alternativa mais realista
  • Essa discussão é vista como uma exploração experimental sobre se LLMs podem ir além da simples compreensão de linguagem e internalizar capacidades de percepção visual e espacial

Implicações para a indústria

  • Em setores que lidam com estruturas documentais complexas, como processamento de documentos, finanças, jurídico e saúde, a abordagem do DeepSeek-OCR tem grande relevância
    • Por exemplo, ela pode viabilizar a construção de sistemas de IA capazes de compreender diretamente a disposição visual de contratos ou faturas digitalizados
  • A discussão levantada por Karpathy incentiva uma reavaliação fundamental dos formatos de entrada em IA e pode influenciar a direção futura do design de LLMs
  • LLMs baseados em entrada por pixels podem levar à substituição ou integração das tecnologias de OCR e vêm sendo vistos como um novo ponto de inflexão na pesquisa em IA multimodal

1 comentários

 
GN⁺ 2025-10-24
Comentários do Hacker News
  • Não é pixel, e sim percel. Pixel é um ponto da imagem, mas percel seria uma unidade de informação perceptual, podendo incluir som, sensação e até tokens de pensamento
    No caso dos humanos, percebemos percels combinando vários sentidos, e redes neurais (especialmente LLMs) não processam percels isoladamente, mas sim dentro do contexto dos percels vizinhos

    • Já escrevi uma proposta de pesquisa com essa ideia. Pesquisadores de ML criticaram duramente por falta de aplicabilidade prática, mas neurocientistas apoiaram fortemente
      É uma pena que haja grande potencial para pesquisa interdisciplinar, mas seja tão difícil conseguir financiamento por não se encaixar nos moldes existentes
    • Achei esse conceito tão interessante que fui procurar mais, mas não encontrei material. Fiquei curioso se é um neologismo criado por você ou se existe algum artigo ou pesquisa de referência
    • No fim, fico pensando se isso não é parecido com o conceito de espaço latente (latent space). É semelhante no sentido de ser uma estrutura em que vetores relacionados ficam agrupados
    • Para representar percels como vetores, parece que seria preciso mapeá-los em um espaço latente separando dimensões por modo perceptual (visão, audição etc.)
    • Brincando, deu vontade de chamar de toxel em vez de percel
  • Kill the tokenizer” é uma proposta radical, mas fundamental
    Tokenização é apenas um hack provisório para quantificar a linguagem, e distorce a sua essência
    A ideia de que pixels podem ser uma unidade de representação mais poderosa é estranha, mas alguém precisa tentar uma abordagem nova

    • Quando leio, processo o texto visualmente e auditivamente ao mesmo tempo
      Por isso, entrada baseada em visão parece uma evolução natural
      Se, em vez de renderizar texto e lê-lo com OCR, codificássemos amostras de voz com TTS, isso talvez fosse mais eficiente do que pixels. Claro, dependeria da resolução ou da taxa de amostragem
    • O Byte Latent Transformer da Meta tentou substituir o tokenizer, mas acabou não chamando atenção
    • Nesse caso, fica a dúvida sobre com o que decodificar no momento da geração. Tokens têm um significado que vai além de uma simples representação visual, então apenas gerar imagens de texto não basta
    • Texto tem densidade de informação muito alta. Por isso, ainda é eficiente como entrada
    • Eu também não entendo muito bem. Como a imagem do texto poderia ser melhor do que o próprio texto? Parece mais algo como tirar uma foto da tela inteira e ainda treinar visão de câmera por cima
  • Como pesquisa relacionada interessante, há um artigo de Lex Flagel e outros que converteu dados de sequências de DNA em imagens e os treinou com CNNs
    Como resultado, a CNN conseguiu reproduzir métricas genéticas que antes eram obtidas por análise textual convencional
    Link do artigo

  • O centro da discussão recente é a consciência de que usamos uma abstração com perda (lossy abstraction) ao representar linguagem para máquinas
    Tokenização é apenas uma delas, e pixels ou sinais de voz são outras aproximações
    O verdadeiro valor desses experimentos está em testar as hipóteses de projeto da arquitetura atual
    Uma abordagem que aprende alinhamento multimodal pode descobrir uma estrutura latente melhor ou um método de treinamento melhor, o que pode levar a melhorias nos codificadores de texto existentes
    Especialmente em línguas nas quais os limites entre palavras são ambíguos, formas alternativas de codificação podem ajudar muito

  • A ideia do artigo de “compressão de informação → janela de contexto curta → ganho de eficiência” é interessante,
    mas fico na dúvida se, ao variar tamanho de letra, fonte e espaçamento, a taxa de compressão não poderia até piorar

  • Concordo com o argumento do Karpathy.
    Uma das vantagens dos tokens de texto é que eles aprendem uma compreensão implícita do método de entrada (teclado QWERTY)
    Por exemplo, “Hello” e “Hwllo” são percebidos como semanticamente próximos por causa das teclas adjacentes no teclado

    • Se uma IA puder ler com entrada baseada em pixels, variações como “HWLLO” ou “H3LL0” também poderão ser reconhecidas como semelhantes por similaridade visual
      Isso exigiria mais treinamento, mas no fim permitiria obter uma capacidade de reconhecimento mais generalizada
    • Eu me identifico com a ideia de aprender erros de digitação (typo learning). Inclusive falei disso no meu vídeo
      Também é possível gerar erros de digitação em imagens para treinamento, então não acho que isso seja um grande problema
  • Quando penso em mim mesmo, ouço na cabeça um fluxo de palavras
    Não como página ou imagem, mas como uma sequência de palavras em forma de som

  • A tokenização atual pode ser ineficiente. A linguagem já possui uma estrutura de compressão em alto nível,
    mas pode existir uma forma melhor de representação no espaço latente

    • A indústria conhece bem as limitações dos tokenizers. Mas implementar na prática uma forma escalável de substituí-los é muito difícil
    • Modelos de imagem usam tokens de granularidade maior. Também seria possível criar, para texto, um grande vocabulário de tokens baseados em n-gramas,
      mas a arquitetura atual de LLMs é ineficiente para lidar com uma distribuição de saída grande demais
  • Ainda parece cedo para essa abordagem se tornar prática.
    Sempre que o ChatGPT sugere “que tal visualizar isso como imagem?”, o resultado vem cheio de alucinações (hallucinations)

    • Mas geração de imagem e entrada de imagem são problemas completamente diferentes
      O que se está discutindo aqui é converter texto em imagem e fornecê-lo como entrada para um LLM, não gerar imagens
  • Em discussões recentes relacionadas, há o caso de rodar o DeepSeek-OCR no Nvidia Spark e o projeto DeepSeek OCR.
    Ambos foram bastante discutidos em outubro de 2025.