Os pesos de LLMs em larga escala são parte da história

(antirez.com)

5 pontos por GN⁺ 2025-03-17 | 2 comentários | Compartilhar no WhatsApp

Muitas páginas antigas da web desaparecem todos os anos, e isso é história perdida para sempre
O Internet Archive é um dos ativos mais valiosos da história moderna
Porém, várias empresas e instituições estão dificultando a sobrevivência e a preservação do arquivo
O fato de a sede do Internet Archive estar localizada em um antigo prédio de igreja é simbólico, e deveríamos tratá-lo como um lugar sagrado

Os tempos em que antigos programadores trabalhavam com assembly Z80, as discussões da primeira geração da internet e as subculturas formadas nos anos 90 estão desaparecendo aos poucos
O desaparecimento de blogs pessoais → o registro da vida e da consciência de indivíduos também desaparece
Artigos científicos, arte digital, videogames, dados climáticos e fontes iniciais de notícias também estão desaparecendo gradualmente
Quando editoras ou sites saem do ar, essas informações muitas vezes desaparecem para sempre

A tentativa de preservar todas as informações provavelmente fracassará na prática
- Porque isso gera custos enormes em situações sem retorno econômico
- O mundo atual está em uma condição em que é difícil investir recursos em algo que não dá dinheiro
A capacidade de compressão de informação dos LLMs (grandes modelos de linguagem) não é perfeita, mas pode ao menos cumprir um papel mínimo de preservação
- O DeepSeek V3 já está sendo disponibilizado e usado como uma versão comprimida com perdas da internet

Não é possível reverter todas as perdas, mas devemos apoiar instituições como o Internet Archive
Ao mesmo tempo, há uma tarefa importante: preservar para que os pesos de LLMs abertos não desapareçam
É preciso garantir que o conteúdo do Internet Archive esteja incluído nos conjuntos de pré-treinamento de LLMs

2 comentários

GN⁺ 2025-03-17

Comentário no Hacker News

Gostei do título "Big LLMs". Agora estamos distinguindo entre LLMs grandes e pequenos, e talvez também LLMs médios. Quero sugerir que os chamemos de "Tall LLMs", "Grande LLMs" e "Venti LLMs"
O Internet Archive deveria ser considerado uma das partes mais valiosas da história moderna. No entanto, muitas empresas e organizações estão tornando a sobrevivência e o acúmulo de arquivos cada vez mais difíceis. Entendo que a sede do arquivo fica em um prédio que antes era uma igreja. Essa é a melhor forma de pensar nisso como um lugar sagrado. Há um esforço ativo para criar um Internet Archive baseado na Europa
O projeto llamafile da Mozilla foi projetado para permitir a preservação de LLMs para fins históricos. Eles fornecem os pesos e todo o software necessário como um executável de arquivo único, determinístico e sem dependências. Se você guardar os llamafiles, poderá obter a mesma saída de hoje daqui a 50 anos. Espero que apoiem a Mozilla para que este momento especial fique arquivado para as gerações futuras
Assim como o mapa não é o território, um resumo não é o conteúdo nem os livros reais de uma biblioteca. Se quero ler posts, livros e fóruns, quero ler exatamente isso. Não um simulacro feito por um misterioso algoritmo matemático
Sinto falta dos bons velhos tempos em que eu fazia tabelas de filmes com links para pôsteres de filmes usando text-davinci. Normalmente ele gerava URLs de imagem de buckets s3. Os links sempre funcionavam
Acho que tudo na internet não precisa ser arquivado para sempre. No passado, as pessoas escreviam em papel e a maior parte disso não era arquivada. Em algum momento, simplesmente desaparecia. Herdei muitas caixas de anotações, livros e documentos dos meus avós. A maior parte não tinha significado para mim. Tive que jogar muita coisa fora e mantive apenas alguns milhares de páginas de vários documentos. As outras desapareceram para sempre. E isso provavelmente está tudo bem. O arquivamento é muito importante, mas hoje a parte mais difícil é escolher o que arquivar. Há conteúdo demais sendo adicionado à internet a cada segundo, e só uma parte disso pode ser arquivada
Fico me perguntando se seria possível usar vários LLMs diferentes para reconstruir uma versão aproximada do subconjunto comum e popular dos dados de treinamento da internet. Queria saber se alguém conhece referências para artigos matemáticos sobre esse tipo de coisa
Isso não significa muito para mim. Rumores sem fonte têm valor histórico limitado, e a maior parte dos modelos da web com pesos disponíveis parece se basear no Common Crawl, então está disponível para preservação
Gosto da narrativa de que os LLMs preservam o conhecimento humano. Pessoalmente, quero que todo conhecimento e toda informação sejam facilmente acessíveis e utilizáveis. Tenho certeza de que a maioria das pessoas compartilha esse sentimento, apesar das decisões de negócios consistentes dos detentores de direitos autorais de colocar tudo atrás de paywalls ou cadastro. Muitas pessoas odeiam o fato de o Google organizar a informação do mundo e prosperar por meio de anúncios, mas, no longo prazo, a informação está sendo organizada e preservada em vários formatos de dados da internet. Afinal, foi o Google que originalmente projetou o Transformer que tornou possíveis os pesos de LLM, e isso agora faz parte da história
Artigos científicos e cursos desaparecem para sempre quando editoras fracassam e sites saem do ar. Não acho que as grandes editoras científicas vão fracassar (agora, na nossa época). Elas são ricas

regentag 2025-03-18

"Um resumo não é o conteúdo nem o livro real da biblioteca. Se eu quiser ler uma postagem, um livro ou um fórum, quero ler exatamente isso. Não uma imitação criada por um misterioso algoritmo matemático"

Concordo com isso.

Os pesos de LLMs em larga escala são parte da história

Leituras relacionadas

2 comentários

Comentário no Hacker News