Uma semana usando o Gemini Pro 1.5 - realmente fantástico

xguru · 2024-02-26T11:16:01+09:00

O Gemini Pro 1.5, novo LLM em beta fechado do Google, mostra um desempenho muito superior ao dos modelos anteriores O Gemini 1.5 Pro lê um romance inteiro e explica em detalhes uma cena escondida no meio dele lê uma codebase inteira e sugere onde adicionar novos recursos e exemplos de código lê todos os destaques de leitura no Readwise e seleciona os destaques para escrever um ensaio Pode processar até 1 milhão de tokens em um único prompt em comparação com outros modelos, a janela de contexto do Gemini Pro 1.5 é muito maior (o GPT-4 Turbo tem 128000, então é cerca de 8 vezes maior) mesmo usando uma janela de contexto grande, lida muito bem com prompts extensos enquanto outros modelos perdem desempenho à medida que o tamanho do prompt aumenta, o Gemini não apresenta esse problema Pontos de atenção o Gemini Pro 1.5 ainda está em beta fechado, e seu desempenho pode mudar quando for lançado publicamente o Gemini Pro 1.5 é lento no processamento, especialmente em solicitações de grande porte a OpenAI ainda tem terreno a recuperar, e os recursos de recuperação de informação continuam sendo importantes

(every.to)

10 pontos por xguru 2024-02-26 | 3 comentários | Compartilhar no WhatsApp

O Gemini Pro 1.5, novo LLM em beta fechado do Google, mostra um desempenho muito superior ao dos modelos anteriores
O Gemini 1.5 Pro
- lê um romance inteiro e explica em detalhes uma cena escondida no meio dele
- lê uma codebase inteira e sugere onde adicionar novos recursos e exemplos de código
- lê todos os destaques de leitura no Readwise e seleciona os destaques para escrever um ensaio
Pode processar até 1 milhão de tokens em um único prompt
- em comparação com outros modelos, a janela de contexto do Gemini Pro 1.5 é muito maior (o GPT-4 Turbo tem 128000, então é cerca de 8 vezes maior)
- mesmo usando uma janela de contexto grande, lida muito bem com prompts extensos
- enquanto outros modelos perdem desempenho à medida que o tamanho do prompt aumenta, o Gemini não apresenta esse problema
Pontos de atenção
- o Gemini Pro 1.5 ainda está em beta fechado, e seu desempenho pode mudar quando for lançado publicamente
- o Gemini Pro 1.5 é lento no processamento, especialmente em solicitações de grande porte
- a OpenAI ainda tem terreno a recuperar, e os recursos de recuperação de informação continuam sendo importantes

3 comentários

dahada 2024-03-20

Colei um romance e tentei conversar sobre ele, mas o sistema se recusa a processar se aparecer qualquer expressão um pouco mais picante. Mesmo reduzindo o nível do filtro, ainda há romances que não funcionam. Parece que escolheram segurança em vez de escalabilidade.

ajh508 2024-02-27

Até agora, sempre fizeram um alarde enorme cada vez que saía alguma coisa, mas acho que não teve nenhuma que realmente superasse a OpenAI..
Pessoalmente, espero que saia logo um LLM que tenha trocado todo o backbone por Mamba

xguru 2024-02-26

Opiniões no Hacker News

Gosto da ideia de dar para a IA o texto de um livro inteiro. Às vezes estou lendo um romance e não consigo me lembrar de personagens; seria ótimo se eu pudesse destacar um nome no e-reader e ela soubesse que estou na página 85 de Neuromancer, respondendo sem spoilers. Ou então um livro didático que pudesse ajudar e dar dicas quando eu travasse resolvendo um problema, como um bom parceiro de estudos.
Dá para ter certeza de que, por causa da política identitária do Google, eles não vão alterar os fatos de um livro? Eles ajustam o conteúdo quando você envia um livro problemático? Por esse motivo, para mim isso é totalmente inútil.
Um artigo que apresenta exemplos exatos, equilíbrio e ressalvas sobre esse tema, além de revelar seus próprios interesses, por exemplo: ser investidor do LlamaIndex
O que mais me anima é como seria usar uma janela de contexto gigantesca em combinação com isso, sem abandonar RAG. Se for possível analisar um livro inteiro para identificar as partes relevantes e colocar o livro todo na janela de contexto, isso significa que também seria possível colocar as partes relevantes de uma biblioteca de referência inteira na janela de contexto, o que é muito promissor
Algumas pessoas já tiveram acesso por alguns dias e, pelo que relataram, isso não é só um avanço em comprimento, mas no uso real da janela de contexto. Ele a aproveita muito melhor do que outros modelos. É uma pena que não tenham compartilhado como isso é possível.
Isso não ficaria absurdamente caro? No GPT-4, colocar o máximo de contexto já custa $1.28 por interação! O Gemini é muito mais barato do que isso?
Na NSA, provavelmente estão esfregando as mãos com as possibilidades que essa tecnologia vai abrir. Eles poderão usá-la para consultar os dados que vêm armazenando diligentemente há anos
Ele lê uma base de código inteira, sugere onde adicionar novos recursos e ainda apresenta código de exemplo. Espero que isso não seja como a invenção do automóvel, que eliminou a carruagem, e sim como a invenção da drum machine, que não acabou com os bateristas.
Esses modelos muitas vezes passam a funcionar de forma diferente (e pior) quando são lançados publicamente, e não sabemos como o Gemini vai se comportar operando na escala do Google. Torço sinceramente para que o Google aprenda com a reputação cada vez mais em queda do ChatGPT e encontre um jeito de manter o modelo no seu melhor desempenho. Seja limitando o acesso, aumentando o preço, ou ambos, quero muito ter uma experiência de alta qualidade com esse modelo quando ele for lançado.

Uma semana usando o Gemini Pro 1.5 - realmente fantástico

Leituras relacionadas

3 comentários

Opiniões no Hacker News