- Livro introdutório e intermediário que aborda os fundamentos da visão computacional sob as perspectivas de processamento de imagens e aprendizado de máquina
- Cada capítulo foi estruturado de forma curta e clara para focar nos conceitos centrais
- Explica as mudanças após a revolução do deep learning e o processo de reconstrução de ideias clássicas, junto com a experiência de escrita do livro
- Em 15 partes, cobre temas amplos de visão computacional como processamento de imagens, redes neurais, modelos generativos, processamento de sequências e compreensão de cenas
- A estrutura é voltada mais para a teoria essencial e a construção de intuição do que para tendências de pesquisa recentes ou aplicações específicas
Prefácio
- Dedicado a todos os pixels
Sobre este livro
- Este livro trata dos temas centrais da visão computacional sob a ótica de processamento de imagens e aprendizado de máquina
- Inclui diversos materiais de visualização para desenvolver a intuição do leitor
- O público principal são estudantes de graduação e pós-graduação que estão começando em visão computacional, mas também é útil para profissionais experientes
- Originalmente pretendia cobrir uma grande quantidade de conteúdo, mas devido à vastidão da área de visão computacional, cada capítulo foi limitado a no máximo 5 páginas para manter o foco nos conceitos centrais
- Compartilha com franqueza a experiência de ter buscado escrever um livro curto, mas que acabou ficando extenso
O processo de escrita do livro
- Mostra com dados a não linearidade entre a intenção inicial ao começar a escrever e o processo real, tendo levado mais de 10 anos até a conclusão
- Durante a escrita, ocorreu a revolução do deep learning (2012), dando início ao processo de fusão entre métodos tradicionais e abordagens modernas
- Com a popularidade inicial do deep learning, ideias anteriores foram momentaneamente esquecidas, mas com o tempo os conceitos essenciais voltaram a ser valorizados
- Menciona que a jornada de escrita foi difícil, mas que aprendeu muito ao realizar pessoalmente diversos exemplos e experimentos
- Mostra visualmente como os principais acontecimentos nas áreas de visão computacional e IA mudaram ao longo do período de escrita do livro
Estrutura do livro
- A área de visão computacional passou por avanços rápidos nos últimos mais de 10 anos e, embora a forma atual pareça totalmente diferente do passado, o livro enfatiza a continuidade histórica
- Ao longo de todo o livro, trata repetidamente da importância de um tema e uma visão unificados, além de múltiplas perspectivas
- O livro é composto por 15 partes, cada uma focada em um tema consistente da visão computacional
Introdução a cada parte
- Part I: motivação para problemas de visão computacional, contexto social e fundamentos matemáticos
- Part II: processo de formação da imagem
- Part III: explicação de conceitos básicos de aprendizado de máquina por meio de exemplos de imagens
- Part IV: introdução a sinais e processamento de imagens
- Part V: filtros lineares úteis (kernel gaussiano, filtro binário, derivadas de imagem, laplaciano, filtros temporais) e aplicações
- Part VI: representações de imagem em múltiplas escalas
- Part VII: redes neurais para visão computacional (redes neurais convolucionais, redes neurais recorrentes, Transformers)
- Part VIII: modelos estatísticos de imagens e modelos gráficos
- Part IX: abordagem moderna centrada em modelos generativos e aprendizado de representações (como embeddings vetoriais)
- Part X: desafios que surgem ao construir sistemas de visão baseados em aprendizado
- Part XI: ferramentas geométricas para reconstrução de estrutura 3D
- Part XII: processamento de sequências e medição de movimento
- Part XIII: compreensão de cenas e detecção de objetos
- Part XIV: conselhos para pesquisadores juniores sobre apresentações, redação de artigos e mentalidade de pesquisa eficaz
- Part XV: tentativa de resolver os problemas apresentados na Part I com as várias metodologias tratadas no livro
Conteúdo não abordado
- Não cobre as tendências mais recentes em visão computacional nem diversas áreas de aplicação prática (análise de forma, rastreamento de objetos, análise de ações, reconhecimento facial etc.)
- Para essas aplicações detalhadas, é mais eficaz consultar artigos de conferências ou livros especializados
Agradecimentos
- Expressa agradecimento a professores, estudantes e colegas que influenciaram diferentes atividades de ensino e pesquisa em visão computacional
- Menciona agradecimentos específicos por diversas colaborações, como materiais de aula de várias conferências, experimentos, apoio por capítulo e design da capa
- Cada autor também agradece a familiares e pessoas próximas pelo apoio contínuo
Informações de citação
- Fornece um formato BibTeX que pode ser usado para citar o livro
Recursos para docentes
- A edição impressa do livro pode ser comprada na MIT Press
- Também oferece online slides de aula vinculados ao livro
Referências
- Fornece uma lista de obras clássicas e recentes relevantes sobre visão computacional, aprendizado de máquina, processamento de sinais, geometria, ciência da visão e áreas relacionadas
1 comentários
Comentários do Hacker News
Há uma parte interessante no livro "On Research, Writing and Speaking". "Isso parece difícil." Sim. Já não dá mais para vencer só sendo inteligente. A mensagem compartilhada é que, na pós-graduação, quem se destaca é quem se esforça muito
Com as mudanças tecnológicas dos últimos 2 anos, foi pedido a alguém da área que comentasse se o conteúdo tradicional de machine learning, especialmente de computer vision, ainda continua válido
Continua sendo muito válido. Mesmo as técnicas mais recentes, no fim das contas, são avanços construídos sobre os mesmos fundamentos. Na verdade, é desejável ler mais sobre conceitos básicos e algoritmos tradicionais. É preciso conhecer bem técnicas clássicas como Hough transform, canny edge, sift e Harris corner para poder ser considerado um verdadeiro especialista. É aí que surge a diferença de habilidade em relação a desenvolvedores que apenas decoram palavras-chave da moda e conectam APIs
Técnicas “clássicas” de computer vision ainda são indispensáveis em sistemas onde aceleração por GPU continua sendo difícil, por exemplo. Eu trabalho resolvendo problemas de Simultaneous localization and mapping em ambientes com recursos limitados. Pretendo ler com atenção o capítulo sobre Structure from Motion
Houve a opinião de que a parte "Writing this book" pode dar a impressão de que um LLM escreveu 2/3 do manuscrito. Como, na prática, talvez queira dizer apenas que o conteúdo do livro aumentou porque há mais coisas que um LLM pode escrever, seria melhor deixar isso mais claro
Como outro bom livro na área de computer vision, foi recomendada a obra abaixo
Elogios entusiasmados dizendo que é quase inacreditável que este livro tenha sido disponibilizado gratuitamente
É verdade mesmo. Fiquei curioso se alguém encontrou uma forma de baixar em PDF. Acho indispensável poder deixar anotações pessoais e materiais de referência ao estudar
A cultura das comunidades de machine learning, computer vision e robotics de disponibilizar livros-texto gratuitamente online é impressionante. Dá para encontrar online, sem custo, livros de altíssimo nível nessas áreas. Em outros campos, professores nos EUA exigem a compra da edição mais recente, o que gera custos altos, mas aqui os melhores materiais são abertos para países em desenvolvimento e para qualquer pessoa no mundo. Também há muito material de aula e vídeos disponibilizados junto
Pedido de recomendação de um bom livro sobre machine vision. A pessoa considera que, além de uma machine vision eficaz, o ponto central da computer vision está na escolha de câmera, óptica e iluminação. Se a qualidade da imagem de entrada não for boa, acha que a saída inevitavelmente também será ruim