6 pontos por GN⁺ 2025-06-16 | 1 comentários | Compartilhar no WhatsApp
  • Livro introdutório e intermediário que aborda os fundamentos da visão computacional sob as perspectivas de processamento de imagens e aprendizado de máquina
  • Cada capítulo foi estruturado de forma curta e clara para focar nos conceitos centrais
  • Explica as mudanças após a revolução do deep learning e o processo de reconstrução de ideias clássicas, junto com a experiência de escrita do livro
  • Em 15 partes, cobre temas amplos de visão computacional como processamento de imagens, redes neurais, modelos generativos, processamento de sequências e compreensão de cenas
  • A estrutura é voltada mais para a teoria essencial e a construção de intuição do que para tendências de pesquisa recentes ou aplicações específicas

Prefácio

  • Dedicado a todos os pixels

Sobre este livro

  • Este livro trata dos temas centrais da visão computacional sob a ótica de processamento de imagens e aprendizado de máquina
  • Inclui diversos materiais de visualização para desenvolver a intuição do leitor
  • O público principal são estudantes de graduação e pós-graduação que estão começando em visão computacional, mas também é útil para profissionais experientes
  • Originalmente pretendia cobrir uma grande quantidade de conteúdo, mas devido à vastidão da área de visão computacional, cada capítulo foi limitado a no máximo 5 páginas para manter o foco nos conceitos centrais
  • Compartilha com franqueza a experiência de ter buscado escrever um livro curto, mas que acabou ficando extenso

O processo de escrita do livro

  • Mostra com dados a não linearidade entre a intenção inicial ao começar a escrever e o processo real, tendo levado mais de 10 anos até a conclusão
  • Durante a escrita, ocorreu a revolução do deep learning (2012), dando início ao processo de fusão entre métodos tradicionais e abordagens modernas
  • Com a popularidade inicial do deep learning, ideias anteriores foram momentaneamente esquecidas, mas com o tempo os conceitos essenciais voltaram a ser valorizados
  • Menciona que a jornada de escrita foi difícil, mas que aprendeu muito ao realizar pessoalmente diversos exemplos e experimentos
  • Mostra visualmente como os principais acontecimentos nas áreas de visão computacional e IA mudaram ao longo do período de escrita do livro

Estrutura do livro

  • A área de visão computacional passou por avanços rápidos nos últimos mais de 10 anos e, embora a forma atual pareça totalmente diferente do passado, o livro enfatiza a continuidade histórica
  • Ao longo de todo o livro, trata repetidamente da importância de um tema e uma visão unificados, além de múltiplas perspectivas
  • O livro é composto por 15 partes, cada uma focada em um tema consistente da visão computacional

Introdução a cada parte

  • Part I: motivação para problemas de visão computacional, contexto social e fundamentos matemáticos
  • Part II: processo de formação da imagem
  • Part III: explicação de conceitos básicos de aprendizado de máquina por meio de exemplos de imagens
  • Part IV: introdução a sinais e processamento de imagens
  • Part V: filtros lineares úteis (kernel gaussiano, filtro binário, derivadas de imagem, laplaciano, filtros temporais) e aplicações
  • Part VI: representações de imagem em múltiplas escalas
  • Part VII: redes neurais para visão computacional (redes neurais convolucionais, redes neurais recorrentes, Transformers)
  • Part VIII: modelos estatísticos de imagens e modelos gráficos
  • Part IX: abordagem moderna centrada em modelos generativos e aprendizado de representações (como embeddings vetoriais)
  • Part X: desafios que surgem ao construir sistemas de visão baseados em aprendizado
  • Part XI: ferramentas geométricas para reconstrução de estrutura 3D
  • Part XII: processamento de sequências e medição de movimento
  • Part XIII: compreensão de cenas e detecção de objetos
  • Part XIV: conselhos para pesquisadores juniores sobre apresentações, redação de artigos e mentalidade de pesquisa eficaz
  • Part XV: tentativa de resolver os problemas apresentados na Part I com as várias metodologias tratadas no livro

Conteúdo não abordado

  • Não cobre as tendências mais recentes em visão computacional nem diversas áreas de aplicação prática (análise de forma, rastreamento de objetos, análise de ações, reconhecimento facial etc.)
  • Para essas aplicações detalhadas, é mais eficaz consultar artigos de conferências ou livros especializados

Agradecimentos

  • Expressa agradecimento a professores, estudantes e colegas que influenciaram diferentes atividades de ensino e pesquisa em visão computacional
  • Menciona agradecimentos específicos por diversas colaborações, como materiais de aula de várias conferências, experimentos, apoio por capítulo e design da capa
  • Cada autor também agradece a familiares e pessoas próximas pelo apoio contínuo

Informações de citação

  • Fornece um formato BibTeX que pode ser usado para citar o livro

Recursos para docentes

  • A edição impressa do livro pode ser comprada na MIT Press
  • Também oferece online slides de aula vinculados ao livro

Referências

  • Fornece uma lista de obras clássicas e recentes relevantes sobre visão computacional, aprendizado de máquina, processamento de sinais, geometria, ciência da visão e áreas relacionadas

1 comentários

 
GN⁺ 2025-06-16
Comentários do Hacker News
  • Há uma parte interessante no livro "On Research, Writing and Speaking". "Isso parece difícil." Sim. Já não dá mais para vencer só sendo inteligente. A mensagem compartilhada é que, na pós-graduação, quem se destaca é quem se esforça muito

    • É uma observação realmente perspicaz. Em algum momento, todo mundo percebe que conhecimento por si só não é suficiente. Muita gente sente essa barreira ao entrar na universidade. Mas, na faculdade, o escopo de estudo é definido, então de algum jeito dá para se sustentar só com capacidade. Já no doutorado, não há limite para a quantidade de estudo. Não existe carga de leitura fixa, nem algo como “fora do conteúdo da prova”. É preciso estudar, experimentar, ler artigos e fazer isso sem limite, tanto quanto for possível. Não basta apenas ser inteligente; também é necessário entender soft skills, networking e o contexto da comunidade. É preciso manter contato com as pessoas da comunidade em reuniões, refeições e networking. Também é necessário se automotivar e gerenciar prazos e rotina por conta própria. Diferentemente da motivação dada por aulas e provas formais, é algo que só funciona com autogestão. Os critérios são ambíguos, e as expectativas são infinitas. Ao contrário de antes, você também pode passar pela experiência de ser rejeitado. O doutorado é um período difícil que leva qualquer pessoa a enfrentar seus próprios limites. Se o objetivo for apenas se formar, talvez dê para passar por isso de qualquer jeito, mas normalmente os estudantes que sonham com uma carreira acadêmica acabam tendo metas maiores
  • Com as mudanças tecnológicas dos últimos 2 anos, foi pedido a alguém da área que comentasse se o conteúdo tradicional de machine learning, especialmente de computer vision, ainda continua válido

    • Continua sendo muito válido. Mesmo as técnicas mais recentes, no fim das contas, são avanços construídos sobre os mesmos fundamentos. Na verdade, é desejável ler mais sobre conceitos básicos e algoritmos tradicionais. É preciso conhecer bem técnicas clássicas como Hough transform, canny edge, sift e Harris corner para poder ser considerado um verdadeiro especialista. É aí que surge a diferença de habilidade em relação a desenvolvedores que apenas decoram palavras-chave da moda e conectam APIs

    • Técnicas “clássicas” de computer vision ainda são indispensáveis em sistemas onde aceleração por GPU continua sendo difícil, por exemplo. Eu trabalho resolvendo problemas de Simultaneous localization and mapping em ambientes com recursos limitados. Pretendo ler com atenção o capítulo sobre Structure from Motion

  • Houve a opinião de que a parte "Writing this book" pode dar a impressão de que um LLM escreveu 2/3 do manuscrito. Como, na prática, talvez queira dizer apenas que o conteúdo do livro aumentou porque há mais coisas que um LLM pode escrever, seria melhor deixar isso mais claro

    • Eu não li dessa forma. Parece, na verdade, que menos de 1/3 do livro foi escrito depois do surgimento do ChatGPT. Soa mais como uma marcação, no gráfico, dos principais eventos da área de ML/AI
  • Como outro bom livro na área de computer vision, foi recomendada a obra abaixo

    Computer Vision, Fifth Edition
    E.R. Davies
    Academic Press
    ISBN-13 978-0128092842
    
    • Como outro livro-texto importante, também foi recomendado "Computer Vision 2nd Ed" (2022), de Szeliski https://szeliski.org/Book/. O livro de Forsyth & Ponce também é bom, mas já está um pouco antigo. Se você se interessa por 3D, Multiple View Geometry, de Hartley & Zisserman, continua sendo um clássico
  • Elogios entusiasmados dizendo que é quase inacreditável que este livro tenha sido disponibilizado gratuitamente

    • É verdade mesmo. Fiquei curioso se alguém encontrou uma forma de baixar em PDF. Acho indispensável poder deixar anotações pessoais e materiais de referência ao estudar

    • A cultura das comunidades de machine learning, computer vision e robotics de disponibilizar livros-texto gratuitamente online é impressionante. Dá para encontrar online, sem custo, livros de altíssimo nível nessas áreas. Em outros campos, professores nos EUA exigem a compra da edição mais recente, o que gera custos altos, mas aqui os melhores materiais são abertos para países em desenvolvimento e para qualquer pessoa no mundo. Também há muito material de aula e vídeos disponibilizados junto

  • Pedido de recomendação de um bom livro sobre machine vision. A pessoa considera que, além de uma machine vision eficaz, o ponto central da computer vision está na escolha de câmera, óptica e iluminação. Se a qualidade da imagem de entrada não for boa, acha que a saída inevitavelmente também será ruim

    • Fiquei curioso se alguém poderia compartilhar casos reais ou exemplos de uso em que esses fatores fizeram diferença