4 pontos por GN⁺ 2023-10-05 | 2 comentários | Compartilhar no WhatsApp
  • Construção de um modelo de aprendizado de máquina (ML) generativo para criação de fontes chamado 'FontoGen'
  • O modelo recebe descrições de fontes como entrada e fornece arquivos de fonte como saída
  • O autor se inspirou na ascensão da IA em 2023 para explorar a geração de SVG a partir de texto, o que levou à ideia de criar fontes
  • O modelo foi construído com base no artigo IconShop2, e foi constatado que, de forma semelhante à geração de SVG, a geração de fontes também era possível
  • O modelo é um modelo sequence-to-sequence treinado em uma sequência em que embeddings de fonte vêm após embeddings de texto
  • Os embeddings de texto foram gerados usando um modelo encoder BERT pré-treinado, e os embeddings de fonte foram gerados convertendo a fonte em uma sequência de tokens
  • O modelo é um transformer autoregressivo encoder-only composto por 16 camadas e 8 blocos, com um total de 73,7 milhões de parâmetros
  • O autor usou atenção BigBird3 para focar no prompt inicial e observar N tokens anteriores, capturando o estilo de vários glifos anteriores
  • O modelo foi treinado em um dataset único de 71k fontes, no qual o GPT-3.5 resumiu diferentes tipos de descrição em algumas palavras-chave
  • O processo de treinamento levou 127 horas e foi interrompido quando a perda de validação quase não melhorava
  • O autor obteve um ganho de desempenho de três vezes ao transferir o máximo possível para a etapa de pré-processamento do dataset
  • O autor sugere possíveis aplicações futuras, como integrar o modelo a editores de fontes existentes para gerar todos os outros glifos com base em um único glifo criado por um designer

2 comentários

 
dbgus2028 2023-10-06

Crie uma fonte fofa para mim

 
GN⁺ 2023-10-05
Opiniões do Hacker News
  • O interpretador de código do GPT-4 pode converter PNGs em preto e branco de glifos em SVG, e isso pode ser usado em conjunto com modelos de geração de imagem para criar fontes.
  • Douglas Hofstadter, autor de Gödel, Escher, Bach, acreditava que a criação de fontes seria impossível sem uma IA geral.
  • O projeto Letter Spirit busca modelar a criatividade artística ao projetar fontes de estilo unificado chamadas "gridfonts", limitadas a uma grade.
  • Há preocupações sobre a precisão das fontes geradas por modelos de ML, com problemas como linhas que não ficam perfeitamente paralelas e cantos que não formam exatamente 90 graus.
  • A abordagem de representar pixels como 150x150 bins distintos não é considerada ideal; em vez disso, sugere-se usar uma convnet e rastrear a saída.
  • Com essa abordagem, a criação de novas fontes, especialmente fontes muito estilizadas, pode se tornar mais viável.
  • O modelo está em ckpt, e não em safetensor, o que pode influenciar se alguns usuários vão querer testá-lo.
  • Apesar de modelos de difusão terem dificuldade para desenhar texto, esse método funciona bem para essa aplicação.