Aprendendo a ler e escrever e o retorno aos cadernos manuscritos
(research.google)O retorno aos cadernos manuscritos por meio da leitura e escrita de caligrafia
-
Introdução
- Os engenheiros de software Blagoj Mitrevski e Andrii Maksai, do Google Research, apresentam um modelo que converte fotos de escrita à mão em formato digital.
- Esse modelo consegue recriar os traços da caneta sem necessidade de equipamento especial.
- As notas digitais têm vantagens como durabilidade, possibilidade de edição e facilidade de indexação, mas ainda existem diferenças em relação à escrita manual tradicional.
- Para reduzir essa diferença, é necessária uma tecnologia de "de-renderização" que converta a escrita à mão em tinta digital.
-
Vantagens da tinta digital
- Mesmo usuários que preferem a escrita manual tradicional podem acessar suas anotações em formato digital.
- Vai além de OCR ao criar documentos livremente editáveis preservando o estilo da escrita manual.
- Facilita a integração e a organização com conteúdo digital.
-
InkSight: conversão de caligrafia do offline para o online
- Propõe um método para extrair traços de fotos de escrita à mão sem equipamento especial.
- Em vez de depender de estruturas geométricas tradicionais, aprende a "ler" e "escrever", apresentando desempenho robusto em diversos contextos.
-
Visão geral
- O objetivo é capturar detalhes de trajetória no nível dos traços da escrita manual.
- Os traços resultantes podem ser salvos no aplicativo de notas escolhido pelo usuário.
-
Desafios
- Dados supervisionados limitados: obter dados pareados de imagem e tinta digital é caro e demorado.
- Escalabilidade para imagens grandes: é preciso processar com eficiência imagens de entrada com diferentes resoluções e quantidades de conteúdo.
-
Metodologia
- Aprende a ler e escrever para generalizar a tarefa de de-renderização para imagens de diversos estilos como entrada.
- Sem depender de estrutura geométrica, extrai com precisão os elementos de texto e gera representações vetoriais semelhantes à forma como humanos escrevem.
-
Fluxo de trabalho do sistema
- Usa OCR para extrair caixas delimitadoras no nível de palavra e faz a de-renderização de cada palavra individualmente.
- Reduz a diferença de domínio entre imagens sintéticas e fotos reais por meio de aumento de dados.
-
Modelo visão-linguagem
- Cria uma mistura de treinamento que inclui cinco tipos de tarefa.
- Cada tarefa é diferenciada durante o treinamento e a inferência usando texto de entrada específico da tarefa.
-
Resultados
- Para avaliar o desempenho do modelo, foi coletado um conjunto de dados de avaliação e foram treinadas três variantes do modelo.
- Avaliações automáticas e humanas mostram que a saída do modelo se assemelha à imagem de entrada e à tinta digital gerada por humanos.
-
Conclusão
- Apresenta a primeira abordagem para converter fotos de escrita à mão em tinta digital.
- Propõe um método que pode ser construído com blocos padrão, sem modelagem complexa.
Resumo do GN⁺
- A tecnologia de conversão de escrita manual para formato digital combina as vantagens da escrita tradicional com as notas digitais, oferecendo uma experiência melhor para o usuário.
- Como essa tecnologia pode apresentar desempenho robusto em várias situações sem exigir equipamento especial, há grande potencial de adoção ampla.
- Produtos do setor com funcionalidades semelhantes incluem a caneta inteligente da Wacom e a smartpen da Livescribe.
1 comentários
Comentários do Hacker News
É interessante um aplicativo que, por meio de um sistema, consiga transformar uma caligrafia ruim em uma escrita limpa
Havia expectativa em relação a reaprender a escrever à mão, mas a pesquisa do Google ajuda a melhorar as notas digitais
Há interesse nas tecnologias mais recentes de reconhecimento de escrita à mão em fotos
Há 10 anos, tentou-se usar o tesseract para OCR em inglês, mas o desempenho não era bom em idiomas não ingleses
Há curiosidade sobre se isso pode funcionar também em dispositivos de baixo consumo
A ideia de imitar a escrita humana é interessante
Há a pergunta se essa tecnologia pode ser usada para criar assinaturas ou escrita falsificadas
É um projeto de pesquisa que pode ter grande impacto na área de educação, em cadernos digitais de anotações ou na preservação de documentos antigos
Está sendo procurada uma boa solução de OCR para escrita à mão
É apresentado um modelo que converte fotos de escrita à mão em formato digital