Jeff Dean: As tendências mais recentes em machine learning [vídeo]

(youtube.com)

25 pontos por GN⁺ 2024-02-21 | 3 comentários | Compartilhar no WhatsApp

Jeff Dean (Google): tendências interessantes em machine learning

Tendências interessantes e expectativas em aprendizado de máquina

Nos últimos anos, o aprendizado de máquina mudou drasticamente nossas expectativas sobre o que os computadores podem fazer.
Em áreas como linguagem, imagens e processamento de linguagem natural, os computadores passaram a ter a capacidade de perceber e compreender melhor o mundo.
O avanço de tecnologias que permitem aos computadores ver e perceber abriu muitas oportunidades em quase todos os campos da atividade humana.
A evolução de recursos computacionais em maior escala, computadores especializados e outros avanços tem produzido resultados melhores e aberto novas possibilidades.
Precisamos de formas mais diversas de hardware que possam operar com alta eficiência, ao mesmo tempo em que delimitamos de forma mais eficiente o escopo do que os computadores podem fazer.

Avanços em reconhecimento de fala, tradução, análise de imagens e melhora na precisão das previsões

A tecnologia de reconhecimento de fala converte uma forma de onda de áudio em fala significativa ao longo de 5 segundos, e houve grande progresso nessa área.
A tecnologia de tradução está evoluindo como uma funcionalidade que ajuda muito os computadores a traduzirem de um idioma para outro.
A tecnologia de análise de imagens também avançou bastante na área de visão computacional, passando não apenas a atribuir rótulos, mas também a converter cenas em frases curtas descritivas.
Além disso, nos últimos anos também se tornou possível usar essas tecnologias no sentido inverso.
É impressionante que, ao longo de 10 anos, tenha havido uma melhora de desempenho que supera a precisão humana.

A importância do escalonamento de hardware para melhorar a qualidade dos modelos de IA

O benchmark representativo para medir a precisão do reconhecimento de fala, o 'Word Error Rate', melhorou significativamente de 13,25% para 2,5%.
Com isso, a usabilidade melhorou muito, tornando a tecnologia confiável o suficiente para redigir e-mails por voz ou fazer ditado.
Em especial, o scale-up de hardware ajuda a melhorar a qualidade dos modelos, e para isso é necessário hardware otimizado para machine learning.
Modelos de redes neurais têm a característica de funcionar bem mesmo com precisão reduzida, o que permite treinamento mais eficiente.
Além disso, os algoritmos usados no treinamento dos modelos são compostos por várias combinações de operações de álgebra linear, então são necessários computadores capazes de processar com eficiência operações de álgebra linear com precisão reduzida.

Avanços em redes de computadores e entusiasmo com modelos de linguagem

Na primeira geração, havia uma rede simples, mas de alta largura de banda. Cada chip era conectado em uma grade 2D, e em uma grade 16x6 era ligado a 4 chips vizinhos por fios.
Isso eliminava a necessidade de roteamento na rede e, como os chips eram conectados por distâncias curtas, permitia alta largura de banda e conexões baratas.
Na geração seguinte, houve expansão para 1024 chips em 8 racks, e depois para 64 racks com 64 chips em cada um.
Mais recentemente surgiu a série V5; para inferência distribuída, o modelo V5P com 256 chips oferece mais memória por chip, maior largura de banda e maior largura de banda de memória.
Esse modelo oferece quase meio petaflop por chip em desempenho de ponto flutuante de 16 bits, e em XOR flops pode ser calculado como cerca de 9.000 chips por chip.
Uma das áreas em que a mudança tem sido maior no que os computadores podem fazer é a linguagem. Falamos sobre os avanços em reconhecimento de imagem e fala, mas na verdade o interesse em modelos de linguagem já existia antes das redes NN. Por isso, colaboramos com a equipe do Google Tradutor para pesquisar modelos de linguagem.

Construção de um sistema de tradução de alta qualidade com grande volume de dados e técnicas simples

Houve um esforço para usar na prática real um sistema de tradução de alta qualidade desenvolvido para uma competição científica.
Foi construído um sistema que calculava com que frequência sequências de 5 palavras apareciam em 2 trilhões de tokens e armazenava em memória 300 bilhões de 5-grams únicos.
Para encontrar dados ausentes, foi desenvolvido o novo algoritmo 'stupid backoff', que consulta 4-grams, 3-grams e assim por diante.
A lição aprendida foi que técnicas simples, quando combinadas com grandes volumes de dados, podem gerar resultados eficazes.

Representar palavras como vetores de alta dimensão para aproximar palavras em contextos semelhantes e afastar palavras em contextos diferentes

Em vez de representar palavras de forma discreta, elas são representadas como vetores de alta dimensão, aproximando palavras em contextos semelhantes e afastando palavras em contextos diferentes.
Usando enormes quantidades de dados e um processo de treinamento, palavras que aparecem em contextos parecidos são aproximadas, enquanto palavras de contextos distintos são afastadas, agrupando palavras semelhantes no espaço.
Representações distribuídas codificam muitas informações em um vetor de 100 dimensões que representa uma palavra, e foi assim que se desenvolveu o modelo de tradução 'sequence to sequence learning'.
'Sequence to sequence learning' usa redes neurais para receber sentenças uma a uma, construir a sentença e atualizar a representação distribuída de cada palavra para produzir a tradução.

Uso de modelos para tradução de linguagem natural e diálogos de múltiplas rodadas

Os dados de treinamento contêm frases em inglês e suas frases correspondentes em francês, e o modelo é treinado com esses dados.
Constrói-se um modelo que, a partir de uma frase em inglês de entrada, traduz para uma frase em francês.
Para diálogos de múltiplas rodadas, o modelo é treinado para gerar respostas adequadas usando um contexto composto por interações anteriores.
O modelo Transformer processa a entrada em paralelo e se concentra em cada parte para melhorar a precisão da tradução.
Hoje, com os avanços em algoritmos e hardware de machine learning, é possível treinar modelos em escala maior e gerar respostas com mais eficiência.

Desenvolvimento de um modelo multimodal conversacional capaz de tratar diferentes modalidades sem distinção

Foi discutido o avanço de modelos neurais conversacionais como Mina da OpenAI, ChatGPT e Bard do Google.
Também foram mencionadas as mudanças nos modelos de linguagem, assim como os trabalhos da OpenAI com GPT2 e do Google com T5. Esses modelos estão aumentando muito em número de parâmetros.
Também foi mencionado o avanço do Transformer, usado como base desses trabalhos.
Foram citados GPT3, GPT-4 da OpenAI e projetos como o Gemini do Google. O projeto Gemini tem como objetivo desenvolver um modelo capaz de processar simultaneamente várias modalidades, como texto, imagem e áudio.
O projeto Gemini trata texto, imagem, vídeo e áudio como uma única sequência e treina o modelo com base em Transformer. Com isso, é possível construir representações consistentes entre diferentes modalidades.

Infraestrutura de treinamento em TensorFlow, produtos Gemini de vários tamanhos e sistema de recuperação automática

O Gemini do TensorFlow é oferecido em três tamanhos: Ultra, Pro e Nano, e cada modelo é adequado para usos ou ambientes diferentes.
O Gemini fornece uma malha altamente escalável para treinamento de modelos, com rede de alto desempenho e sistema de recuperação automática.
Para minimizar failures detectadas, upgrades são executados simultaneamente em ambiente multinó, e o estado de outras cópias é restaurado por uma rede de alta velocidade, reduzindo o tempo de recuperação para alguns segundos.
O modelo é treinado com diversos tipos de dados, incluindo documentos da web, livros, código, imagens, áudio e vídeo.
A composição final dos dados de treinamento é determinada por experimentos com modelos menores e avaliação de desempenho, usando várias métricas para encontrar a mistura ideal de dados.

A qualidade dos dados é importante e deve ser considerada. Ela é mais importante que a arquitetura do modelo.

Na fase final do treinamento, são adicionados dados multilíngues aproveitando dados relacionados ao domínio.
Dados de alta qualidade fazem uma grande diferença no desempenho do modelo.
A capacidade de aprender automaticamente um currículo é uma das áreas de pesquisa do futuro.
Também estão em andamento pesquisas sobre como fazer o modelo responder de forma mais eficaz às perguntas e como extrair ao máximo suas vantagens.
Ao usar a técnica de prompting chain of thought, o modelo pode considerar etapas mais variadas e fornecer respostas mais precisas.

Entendendo os resultados da avaliação e da análise de desempenho do modelo

O modelo apresenta como exemplo um caso em que um aluno chegou a uma resposta errada e aponta as partes que precisam ser corrigidas.
O modelo foi avaliado em 32 benchmarks acadêmicos, e o Gemini Ultra mostrou resultados acima do desempenho esperado anteriormente em 30 deles.
O modelo também considera o desempenho multilíngue e pensa em trade-offs complexos.
O modelo demonstrou forte compreensão de vídeo e capacidade multimodal, alcançando excelentes resultados em vários benchmarks.

O modelo Gemini tem ótimo desempenho em reconhecimento de fala e capacidade multilíngue, e pode até programar como chatbot

O modelo Gemini apresentou taxas de erro de nível máximo em vários critérios de reconhecimento de fala e também mostrou boa capacidade multilíngue.
A equipe já vinha dedicando muito esforço para avaliar o modelo e entender detalhadamente suas capacidades.
Foi surpreendente que o modelo Gemini também pudesse fornecer informações úteis e código de programação.
Também foi explicado que ele possui conhecimento sobre TPUs e oferece ótima eficiência e melhora de desempenho.
O modelo Gemini pode ter diferentes personalidades de chatbot; entre elas, o Bard atua como um amigo prestativo que ajuda com perguntas, e esse modelo é conhecido por ter alcançado uma alta pontuação ELO no site LMY.

Uso de modelos de inteligência artificial e treinamento por domínio

Existem vários modelos, e entre eles há serviços gratuitos que mostram posições de destaque no ranking e serviços pagos que não fazem isso.
O Gemini calcula a 'quantidade de empresas por milhão de habitantes' na Inglaterra, Estados Unidos, Coreia do Sul, Taiwan e Singapura, apresentando isso em forma de tabela.
O número da Inglaterra é o mais alto, e a interpretação é apresentada, seguida por Estados Unidos, Coreia do Sul, Taiwan e Singapura.
Cada informação é coletada de várias fontes, e os números reais podem variar um pouco dependendo da definição exata.
Quando modelos de inteligência artificial são treinados por domínio, é possível obter resultados especializados para problemas específicos.

Explicação rápida sobre modelos generativos que criam imagens e vídeos

Neste vídeo, há uma breve explicação sobre modelos generativos que criam imagens e vídeos.
Como projetos de pesquisa relacionados, foram citados 'Party' e 'Imagine', e no desenvolvimento de modelos que geram imagens visuais é possível usar entrada em texto para criar imagens específicas.
Por exemplo, diante de uma entrada de texto pedindo a criação de uma nova imagem, o modelo interpreta isso e gera uma imagem real.
Esses modelos geram imagens com base em descrições de objetos e em representações textuais dos pixels.
Dessa forma, é possível gerar imagens com base no texto desejado.

O avanço dos recursos de imagem traz conveniência para usuários de smartphones

Quando vários modelos de análise de imagem são treinados com diferentes parâmetros, os resultados variam conforme a escala.
Os recursos de câmera de smartphones melhoraram ainda mais com a combinação de fotografia computacional e machine learning.
Com recursos como modo foto, modo noturno, destaque de cores e resposta automática em conversas, são possíveis transformações em tempo real e extração de texto.
Esses recursos consideram o contexto do usuário para fornecer transformações e respostas que parecem quase impossíveis.
Eles oferecem benefícios inovadores em ambientes com letramento limitado, como transmissão nítida de imagens e tradução multilíngue.

Uso de tecnologias de machine learning na ciência dos materiais e na área médica

Na área de ciência dos materiais, o machine learning está sendo usado e impacta diversos aspectos, como a criação de simuladores rápidos.
Há grande potencial para investigar materiais possíveis e identificar materiais com propriedades específicas por meio de machine learning.
Na área médica, o machine learning também é usado no diagnóstico por imagens médicas e pode detectar precocemente casos como retinopatia diabética.
Por meio da análise de imagens médicas, é possível fazer triagem de pacientes em regiões com escassez de médicos, e modelos de IA podem ter eficácia semelhante à de especialistas.

Princípios sobre aplicação e responsabilidade enquanto machine learning e computadores transformam o mundo

Uso de GPU para triagem rápida e diagnóstico dermatológico por meio de fotos
Foram anunciados princípios para a aplicação de machine learning, como remoção de vieses injustos, interpretabilidade do modelo, consideração com a privacidade e benefício social
Pesquisas sobre vieses, privacidade e segurança continuam em andamento
Espera-se que, com o avanço de machine learning e computação, sejam possíveis conversas e interações naturais com usuários, e que computadores possam compreender e gerar informações em diversas formas
É necessário ter responsabilidade com a sociedade ao mesmo tempo em que se reconhece o potencial dessas tecnologias

Discussão sobre a importância dos dados e as demandas dos clientes a partir das perguntas apresentadas

Algumas perguntas com tendências específicas, recebidas pelo Slido, foram selecionadas e compartilhadas.
Na área de dados, dados de alta qualidade e capacidade do modelo podem melhorar o desempenho do modelo.
Mas é preciso considerar a qualidade dos dados e o tamanho do modelo. Dados de baixa qualidade podem afetar negativamente a capacidade do modelo de resolver problemas matemáticos, por exemplo.
O treinamento com grandes volumes de dados em vídeo ainda não ocorreu de forma suficiente, e entender o mundo por meio de dados visuais e de fala, e não apenas de linguagem, será diferente de aprender só com linguagem.
De modo geral, os dados ainda não se esgotaram, e ainda há muito espaço para avanços.

Modelos multimodais terão desempenho melhor do que modelos direcionados para cada domínio?

Em alguns casos, modelos multimodais podem apresentar desempenho melhor.
Há uma tendência de que, quanto mais modalidades se adiciona, melhor fica o desempenho em outras modalidades.
Quando se coleta um dataset direcionado para um problema específico, o desempenho nesse problema pode aumentar.
Mas, em problemas complexos ou quando é difícil coletar dados especializados, são necessários modelos com conhecimentos diversos.
Como indivíduos com poucos recursos têm dificuldade para treinar modelos grandes, ainda há vários temas de pesquisa a explorar na área de machine learning.

Ênfase na pesquisa com modelos usando GPU e na importância de várias modalidades de dados

É possível pesquisar temas como avaliação da qualidade dos dados, avaliação automática, aprendizado curricular online e métodos de otimização usando uma GPU ou um pequeno número de GPUs.
A pesquisa sobre Transformer foi realizada em 8 GPUs. LLMs e modelos sequence-to-sequence também foram estudados com 8 GPUs.
Surgiram questionamentos sobre se LLMs e Transformers são tudo, e sobre qual é o papel da pesquisa em outros modelos dentro da área de machine learning.
Há preocupação de que a falta de atenção a outras ideias possa excluir abordagens ainda pouco exploradas ou insuficientemente concretizadas, impedindo avanços dignos de nota.
Considera-se importante lidar com diversas modalidades, levando em conta não apenas visão, áudio e linguagem, mas também outras modalidades, como dados de sensores de batimento cardíaco na medicina.

3 comentários

everfrost314 2024-02-21

Metade é sobre o Gemini mesmo, haha

xguru 2024-02-21

O conteúdo do vídeo foi resumido pelo Lilys.AI.

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

Obrigado... como o xguru já tinha feito, consegui ver o resultado em 1 segundo... ^^

Jeff Dean: As tendências mais recentes em machine learning [vídeo]

Leituras relacionadas

3 comentários