OpenAI apresenta o GPT-4o, modelo de IA multimodal com recursos de texto, áudio e imagem
(openai.com)• Um modelo de IA revolucionário capaz de processar e gerar texto, áudio e imagens ao mesmo tempo
• Com tempo de resposta em tempo real comparável ao de uma conversa humana, o GPT-4o estabelece um novo padrão para interações naturais entre humanos e computadores
• Na API, é mais rápido e mais eficiente em custo, além de superar o desempenho do GPT-4 Turbo em texto e código, especialmente em idiomas que não sejam o inglês
• Com os recursos multimodais do GPT-4o, é possível compreender entrada de áudio e responder a ela, gerar saída de áudio e participar de conversas em tempo real
• O modelo demonstra raciocínio aprimorado, proficiência multilíngue, compreensão de áudio e visual, e percepção visual
• A OpenAI destaca as medidas de segurança implementadas no design e no pós-treinamento do GPT-4o para mitigar riscos potenciais
• O lançamento inicial inclui entrada de texto e imagem e saída de texto; os recursos de áudio e vídeo estarão disponíveis futuramente para parceiros confiáveis da API
5 comentários
Dá para perceber claramente como ficou muito mais rápido.
Se fizer a pergunta em coreano,
o desempenho do próprio modelo 2x * 1,7 (melhoria dos tokens em coreano) = ficou 3,4x mais rápido
O O de 4O significa Omni.
Atualização mais recente do ChatGPT: modelo GPT-4o e maior acessibilidade para os usuários
O ChatGPT está focado em permitir que qualquer pessoa use ferramentas avançadas de IA gratuitamente. O lançamento da versão para desktop e do novo modelo principal, o GPT-4o, tem como objetivo melhorar a naturalidade e a facilidade de uso para os usuários. O GPT-4o oferecerá recursos mais rápidos e aprimorados em texto, visão e áudio, representando um avanço importante na colaboração entre humanos e máquinas.
Expansão do ChatGPT com o GPT-4o
Agora oferecemos o GPT-4o para todos os usuários, com recursos de raciocínio por voz, texto e visão. Os novos recursos incluem conversas por voz em tempo real, memória, busca de informações em tempo real e análise avançada de dados. O GPT-4o está disponível em 50 idiomas, com melhorias de qualidade e velocidade, e limites de uso mais altos para usuários pagos.
Novos recursos em tempo real e mais responsivos do ChatGPT
Os novos recursos do ChatGPT oferecem capacidade de resposta em tempo real e a habilidade de perceber as emoções do usuário. O modelo pode gerar voz em vários estilos, como voz dramática, voz robótica e voz cantada. Além disso, o ChatGPT agora oferece suporte a tarefas visuais e pode interagir com usuários em um ambiente de demonstração ao vivo.
Resolvendo equações lineares: passo a passo
Barrett Zoph e o ChatGPT resolvem a equação 3X + 1 = 4, primeiro isolando o termo com X e depois encontrando o valor de X, antes de discutir aplicações reais de equações lineares no dia a dia, como custos, planejamento de viagens e cálculos de negócios. Isso traz nova confiança para entender matemática e usá-la em problemas reais.
Analisando dados meteorológicos com o ChatGPT
O ChatGPT ajuda a analisar dados meteorológicos explicando funcionalidades de código e interpretando a saída de gráficos. A função 'Fu' é essencial para suavizar os dados de temperatura e reduzir o ruído no gráfico. O gráfico mostra médias suavizadas, temperaturas mínimas e máximas ao longo de 2018, além de uma observação relevante sobre um grande evento de chuva ocorrido no fim de setembro.
Interação multilíngue e tecnologia de IA
A tecnologia de IA demonstra, por meio de uma apresentação ao vivo, recursos de interação multilíngue e interpretação de emoções. A demonstração destaca o objetivo de tornar essa tecnologia mais facilmente acessível aos usuários em um futuro próximo. A apresentação também reconhece a equipe que contribuiu para os avanços tecnológicos e seus méritos.
Corely, os principais pontos de vídeos do YouTube em 10 segundos! - https://corely.ai/content/openai-spring-update-2022
Introducing GPT-4o
A parte da demonstração de conversa em tempo real no vídeo de apresentação é impressionante. Por volta de 9:45 (o link acima já começa desse ponto)
Agora ficou fácil interromper no meio da resposta, as respostas são quase em tempo real e a entonação também ficou muito mais rica.