O que é uma cadeia de Markov
- Quando os LLMs (grandes modelos de linguagem) surgiram pela primeira vez, as pessoas os descreviam como cadeias de Markov muito inteligentes
- Hoje em dia, as pessoas estão mais familiarizadas com LLMs do que com cadeias de Markov
- Uma cadeia de Markov pode ser vista como um LLM muito pequeno, muito simples e muito ingênuo
- Uma cadeia de Markov prevê a próxima palavra com base no contexto atual, mas não considera semântica, dimensionalidade nem outra matemática vetorial complexa
- Uma cadeia de Markov é um modelo estatístico primitivo
- O recurso de "sugestão da próxima palavra" no teclado do celular geralmente usa cadeias de Markov
- Cadeias de Markov têm baixo custo de execução e podem ser atualizadas facilmente para se adequar ao estilo de texto do usuário
- Seria possível explicar em profundidade como LLMs e cadeias de Markov funcionam, mas aqui basta saber que cadeias de Markov têm menos capacidade de executar tarefas do que LLMs
O que é diversão
- O humor tem a ver com surpresa não séria
- As melhores piadas incluem um "snap" prazeroso e importante
- "Snap" significa o impacto que vem da surpresa
- Quanto menor a surpresa, menos engraçado é
- Esse é o motivo de algo ficar menos engraçado quando você ouve a mesma piada muitas vezes
- Humor "aleatório" não é engraçado porque a previsibilidade da aleatoriedade é previsível
- Escrever piadas tem a ver com quebrar padrões
- É possível reforçar o snap por meio da "realização da cena"
- Ao usar uma linguagem mais original ou mais descritiva, a cena parece mais real
- Piadas são diversas e o humor é subjetivo
A previsibilidade dos LLMs
- Prever uma frase com sucesso exige muito contexto
- LLMs têm muito contexto
- LLMs encontram o próximo token mais provável por meio de muitos cálculos matemáticos
- Um LLM "melhor" é mais previsível
- LLMs não são adequados para escrita criativa
- LLMs geram resultados medianos
- Para gerar piadas, um LLM precisa surpreender
- Um bom LLM não faz isso bem
- LLMs não são adequados para expressão artística
- LLMs podem deixar passar conceitos interessantes
- Pode ser possível criar um novo modelo de linguagem com base nessa estrutura
Por que isso é interessante
- Isso aponta para algo mais profundo
- Não se trata de um debate entre alma e máquina
- Isso mostra uma falha inerente do modelo
- As mensagens do ChatGPT parecem redações de ensino médio
- Isso reproduz uma saída mediana
- Isso tem a personalidade removida e é reforçado por rigor acadêmico
- É um tom sem graça e corporativo
- É fácil identificar avaliações falsas da Amazon
- Em breve, modelos de detecção de LLM talvez precisem verificar personalidade
Resumo do GN⁺
- Este texto explica as diferenças entre cadeias de Markov e LLMs e explora a essência do humor
- Cadeias de Markov são modelos estatísticos simples e têm menor capacidade preditiva do que LLMs
- O humor se baseia em surpresa não séria, e escrever piadas tem a ver com quebrar padrões
- LLMs são altamente previsíveis e, por isso, não são adequados para escrita criativa
- O texto mostra os limites dos LLMs e sugere a possibilidade de novos modelos de linguagem
1 comentários
Opinião do Hacker News
Cheguei à mesma conclusão alguns anos atrás, enquanto fazia um projeto paralelo
Pedi ao Claude 3.5 Sonnet que escrevesse 10 piadas curtas sobre o tema de que cadeias de Markov são mais engraçadas que LLMs
Isso não quer dizer que a cadeia de Markov seja melhor
Na faculdade, amigos meus usaram um gerador de cadeia de Markov na seção "relatório policial" do jornal universitário
É desconfortável usar a Bíblia em experimentos desse tipo
Como evidência empírica, /r/subreddit simulator é uma paródia do Reddit baseada em Markov
Já postei algumas vezes no Reddit "XYZ falso escrito por IA"
Há cerca de 10 anos, quando eu ainda estudava, fiz um bot de Twitter com Markov
A evolução do blog AI weirdness apoia essa ideia
Tenho dois bots em um servidor pessoal de Discord