11 pontos por xguru 2023-07-26 | 3 comentários | Compartilhar no WhatsApp
  • "Overview of SHARD: A System for Highly Available Replicated Data" 1988
    • O primeiro artigo a apresentar o sharding de banco de dados, citado por inúmeros trabalhos, mas "não existe"
  • "Integral Neural Networks"
  • "Blue Is the New Black (Market): Privacy Leaks and Re-Victimization from Police-Auctioned Cellphones"
  • "Latency Lags Bandwidth"
  • "Liquid solution centrifugation for safe, scalable, and efficient isotope separation"
  • "Co-cultivation enhanced microbial protein production based on autotrophic nitrogen-fixing hydrogen-oxidizing bacteria"
  • "Enso: A Streaming Interface for NIC-Application Communication"
  • "Search-Based Regular Expression Inference on a GPU"
  • "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"
  • "FP2: Fully in-Place Functional Programming"
  • "Enabling tabular deep learning when d ≫ n with an auxiliary knowledge graph"
  • "A Holistic Approach to Undesired Content Detection in the Real World"

3 comentários

 
cosine20 2023-07-26

As Integral Neural Networks são realmente muito impressionantes.
Parece que o ponto central é o conceito de discretizar a distribuição dos pesos; algo como, à semelhança da teoria da amostragem, discretizar uma distribuição de pesos representada como uma função contínua para otimizar a quantidade de operações.
Olhando para os LLMs recentes, também vemos casos em que o modelo é quantizado para criar modelos que exigem menos computação com desempenho semelhante, então parece uma metodologia parecida.

 
xguru 2023-07-26

O primeiro item é meio absurdo, mas é divertido
Where is the original "Overview of SHARD" paper?

 
cosine20 2023-07-26

Pelo comentário no link, o próprio autor respondeu recentemente.
Como era um documento interno de empresa/instituto de pesquisa, não havia um meio de acesso público.

"I'm the Ronni Rosenberg. This was an internal CCA paper (not from academia or a published journal), from 35 years ago! I don't have a copy and I have no idea how to get it. Sorry about that. It does seem to be the earliest reference to data "sharding." (The other early reference mentioned in Wikipedia is from much later, 1997.)

Fortunately, you need not go back 35 years to read about sharding; it's easy to get current info. Cheers."

Na verdade, esse tipo de caso acontece com certa frequência, e a razão para citar algo mesmo quando não é possível verificar o conteúdo original é deixar clara a origem de um conceito ou de uma pesquisa específica mencionada no artigo. Do ponto de vista de outros pesquisadores, é necessário confirmar se o Sharding mencionado no estudo é o mesmo Sharding entendido pelas outras pessoas, ou se é um conceito diferente proposto por outra pessoa com o mesmo nome, ou ainda se é um conceito que na prática nem existe e foi citado usando o nome Sharding para enganar.
No caso de deep learning também há, às vezes, modelos de rede com o mesmo nome, mas que são resultados de pesquisas diferentes.