5 pontos por GN⁺ 2024-08-19 | 1 comentários | Compartilhar no WhatsApp

O que é uma cadeia de Markov

  • Quando os LLMs (grandes modelos de linguagem) surgiram pela primeira vez, as pessoas os descreviam como cadeias de Markov muito inteligentes
  • Hoje em dia, as pessoas estão mais familiarizadas com LLMs do que com cadeias de Markov
  • Uma cadeia de Markov pode ser vista como um LLM muito pequeno, muito simples e muito ingênuo
  • Uma cadeia de Markov prevê a próxima palavra com base no contexto atual, mas não considera semântica, dimensionalidade nem outra matemática vetorial complexa
  • Uma cadeia de Markov é um modelo estatístico primitivo
  • O recurso de "sugestão da próxima palavra" no teclado do celular geralmente usa cadeias de Markov
  • Cadeias de Markov têm baixo custo de execução e podem ser atualizadas facilmente para se adequar ao estilo de texto do usuário
  • Seria possível explicar em profundidade como LLMs e cadeias de Markov funcionam, mas aqui basta saber que cadeias de Markov têm menos capacidade de executar tarefas do que LLMs

O que é diversão

  • O humor tem a ver com surpresa não séria
  • As melhores piadas incluem um "snap" prazeroso e importante
  • "Snap" significa o impacto que vem da surpresa
  • Quanto menor a surpresa, menos engraçado é
  • Esse é o motivo de algo ficar menos engraçado quando você ouve a mesma piada muitas vezes
  • Humor "aleatório" não é engraçado porque a previsibilidade da aleatoriedade é previsível
  • Escrever piadas tem a ver com quebrar padrões
  • É possível reforçar o snap por meio da "realização da cena"
  • Ao usar uma linguagem mais original ou mais descritiva, a cena parece mais real
  • Piadas são diversas e o humor é subjetivo

A previsibilidade dos LLMs

  • Prever uma frase com sucesso exige muito contexto
  • LLMs têm muito contexto
  • LLMs encontram o próximo token mais provável por meio de muitos cálculos matemáticos
  • Um LLM "melhor" é mais previsível
  • LLMs não são adequados para escrita criativa
  • LLMs geram resultados medianos
  • Para gerar piadas, um LLM precisa surpreender
  • Um bom LLM não faz isso bem
  • LLMs não são adequados para expressão artística
  • LLMs podem deixar passar conceitos interessantes
  • Pode ser possível criar um novo modelo de linguagem com base nessa estrutura

Por que isso é interessante

  • Isso aponta para algo mais profundo
  • Não se trata de um debate entre alma e máquina
  • Isso mostra uma falha inerente do modelo
  • As mensagens do ChatGPT parecem redações de ensino médio
  • Isso reproduz uma saída mediana
  • Isso tem a personalidade removida e é reforçado por rigor acadêmico
  • É um tom sem graça e corporativo
  • É fácil identificar avaliações falsas da Amazon
  • Em breve, modelos de detecção de LLM talvez precisem verificar personalidade

Resumo do GN⁺

  • Este texto explica as diferenças entre cadeias de Markov e LLMs e explora a essência do humor
  • Cadeias de Markov são modelos estatísticos simples e têm menor capacidade preditiva do que LLMs
  • O humor se baseia em surpresa não séria, e escrever piadas tem a ver com quebrar padrões
  • LLMs são altamente previsíveis e, por isso, não são adequados para escrita criativa
  • O texto mostra os limites dos LLMs e sugere a possibilidade de novos modelos de linguagem

1 comentários

 
GN⁺ 2024-08-19
Opinião do Hacker News
  • Cheguei à mesma conclusão alguns anos atrás, enquanto fazia um projeto paralelo

    • Criei um site que gerava posts de blog da AWS
    • Usei um gerador de cadeia de Markov treinado com posts de anúncios da AWS
    • Copiei o HTML e o CSS e juntei tudo com Python e JS
    • O resultado foi bem divertido
    • Tentei fazer um upgrade usando GPT, mas ficou menos divertido
    • Os LLMs modernos são realistas demais, então perdem um pouco da graça
    • O humor dos primeiros geradores de Markov vinha do absurdo
    • Os LLMs modernos às vezes erram, mas não chegam a ser absurdos
  • Pedi ao Claude 3.5 Sonnet que escrevesse 10 piadas curtas sobre o tema de que cadeias de Markov são mais engraçadas que LLMs

    • Por que a cadeia de Markov atravessou a rua? Para chegar ao outro lado da imprevisibilidade
    • Quando um LLM e uma cadeia de Markov entraram num bar, o LLM pediu uma bebida estatisticamente plausível e a cadeia de Markov pediu um abajur feito de queijo
    • Quando uma cadeia de Markov faz piada de tiozão, ela se chama "Mark-ov Twain"
    • O LLM passa 20 minutos explicando a forma ideal de trocar uma lâmpada
    • A cadeia de Markov diz "Markov chain reaction of nonsensical hilarity"
    • Quando um LLM, uma cadeia de Markov e o GPT-4 entram num bar, o GPT-4 vai embora, o LLM discute questões éticas e a cadeia de Markov pede uma bicicleta feita de espaguete
    • O filme favorito do LLM é "Predictable and Furious 17: The Safest Driving Yet"
    • A cadeia de Markov conta uma história sobre "uma princesa que vive num castelo de bananas e um reino de torradeiras sencientes"
    • A cadeia de Markov diz ao LLM: "sua mãe é um ábaco e seu pai cheira a silicone"
    • O motivo de uma cadeia de Markov não ser uma boa terapeuta é que ela aconselha: "transforme seus sentimentos em bananas e faça um chapéu"
  • Isso não quer dizer que a cadeia de Markov seja melhor

    • Um modelo treinado para previsão não deve ser tão diferente do nosso mecanismo interno de previsão
    • O problema é se aproximar do vale da estranheza do texto
  • Na faculdade, amigos meus usaram um gerador de cadeia de Markov na seção "relatório policial" do jornal universitário

    • Os 10% dos resultados mais absurdos eram os mais engraçados
    • Os LLMs modernos tentam manter um nível alto de significado, então evitam esse tipo de absurdo
  • É desconfortável usar a Bíblia em experimentos desse tipo

    • É como usar a imagem de Jesus na cruz em um modelo de edição de imagens por IA
  • Como evidência empírica, /r/subreddit simulator é uma paródia do Reddit baseada em Markov

    • /r/SubSimulatorGPT2 é a versão baseada em LLM
    • A versão Markov recebeu mais upvotes e era mais engraçada
  • Já postei algumas vezes no Reddit "XYZ falso escrito por IA"

    • O modelo que teve a melhor recepção foi o GPT-2
    • Cadeias de Markov não são interessantes por mais de uma ou duas frases
    • Os modelos posteriores ao GPT-3 são polidos demais e entediantes
    • O GPT-2 costuma acertar a gramática e manter uma ideia coerente, mas por saber menos sobre temas específicos, acaba sendo mais engraçado
  • Há cerca de 10 anos, quando eu ainda estudava, fiz um bot de Twitter com Markov

    • Treinei com emails do LKML do Linus Torvalds e citações da Bíblia King James de Jesus
    • Como os dois conjuntos de treino quase não se sobrepunham, precisei adicionar histerese
  • A evolução do blog AI weirdness apoia essa ideia

    • Os primeiros LLMs, especialmente os anteriores ao GPT-3, eram mais engraçados
    • Por exemplo, nomes de cereais gerados pela versão Ada do GPT eram mais engraçados do que os da versão Da Vinci
  • Tenho dois bots em um servidor pessoal de Discord

    • Um é um bot básico de cadeia de Markov treinado com todo o histórico de chat
    • O outro é um bot LLM de verdade
    • O bot de cadeia de Markov é sempre mais engraçado