- tinygrad é um framework de redes neurais que combina simplicidade e desempenho, implementando modelos complexos com uma estrutura mínima de operações
- Com base nele, o tinybox é um computador de IA offline de alto desempenho para treinamento e inferência em deep learning, oferecido em três modelos: red, green e exa
- O modelo superior green v2 blackwell entrega 3086 TFLOPS com 4 GPUs RTX PRO 6000 e está disponível para envio imediato por $65,000
- O topo de linha exabox tem como meta cerca de 1 EXAFLOP de desempenho, com lançamento previsto para 2027 e preço na faixa de aproximadamente $10 milhões
- A fabricante tiny corp tem como objetivo a comercialização do petaflop e a realização de IA para todos
Visão geral do tinygrad
- O tinygrad é um framework de redes neurais focado em simplicidade e desempenho, e é um projeto em rápido crescimento
- Ele compõe redes complexas com apenas 3 OpType: ElementwiseOps, ReduceOps e MovementOps
- ElementwiseOps realiza operações elemento a elemento sobre 1 a 3 tensores, incluindo SQRT, LOG2, ADD, MUL e WHERE
- ReduceOps recebe um tensor como entrada e retorna um tensor menor, com operações como SUM e MAX
- MovementOps é uma operação virtual que move dados sem cópia, usando ShapeTracker para executar RESHAPE, PERMUTE, EXPAND etc.
- A implementação de operações como CONV e MATMUL pode ser verificada diretamente no código
Linha de produtos tinybox
- O tinybox é um computador de alto desempenho para deep learning, composto por três modelos: red, green e exa
- As principais especificações de cada modelo são as seguintes
-
red v2
- GPU: 4x 9070XT
- Desempenho FP16(FP32 acc): 778 TFLOPS
- RAM de GPU: 64GB, largura de banda de 2560 GB/s
- CPU: AMD EPYC de 32 núcleos
- RAM do sistema: 128GB, largura de banda de 204.8 GB/s
- Disco: 2TB NVMe, velocidade de leitura de 7.3 GB/s
- Rede: 2x 1GbE + OCP3.0
- Fonte: 1600W
- Ruído: abaixo de 50dB
- Preço: $12,000, disponível para envio imediato
-
green v2 blackwell
- GPU: 4x RTX PRO 6000 Blackwell
- Desempenho FP16(FP32 acc): 3086 TFLOPS
- RAM de GPU: 384GB, largura de banda de 7168 GB/s
- CPU: AMD GENOA de 32 núcleos
- RAM do sistema: 192GB, largura de banda de 460.8 GB/s
- Disco: RAID de 4TB + 1TB para boot, velocidade de leitura de 59.3 GB/s
- Rede: 2x 10GbE + OCP3.0
- Fonte: 2x 1600W
- Ruído: 65dB (a 10m de distância)
- Preço: $65,000, disponível para envio imediato
-
exabox
- GPU: 720x RDNA5 AT0 XL
- Desempenho FP16(FP32 acc): cerca de 1 EXAFLOP
- RAM de GPU: 25,920GB, largura de banda de 1244 TB/s
- CPU: 120x AMD GENOA de 32 núcleos
- RAM do sistema: 23,040GB, largura de banda de 55.2 TB/s
- Disco: RAID de 480TB, velocidade de leitura de 7.1 TB/s
- Rede: suporte a expansão PCIe5 3.2 TB/s
- Energia: 600kW
- Dimensões: 20x8x8.5 ft, peso de 20,000 lbs
- Lançamento previsto: 2027, preço estimado em aproximadamente $10M
- Todos os modelos usam o sistema operacional Ubuntu 24.04 e podem ser instalados em formato standalone ou rack mount
- Atualizações de produto e estoque são fornecidas por meio da mailing list
FAQ
-
Visão geral do tinybox
-
É um computador de alto desempenho para deep learning, com excelente relação custo-benefício
- Foi testado no benchmark MLPerf Training 4.0 em comparação com sistemas 10 vezes mais caros
- Além do treinamento, também pode executar inferência (inference)
-
Pedidos e envio
- Pode ser encomendado pelo site, com envio em até 1 semana após o pagamento
- Suporta retirada no local em San Diego ou envio para o mundo todo
-
Customização e pagamento
-
Não é possível customizar para manter preço e qualidade
- O pagamento é aceito apenas por transferência bancária (wire transfer)
- O formulário W-9 é fornecido no link para download
-
Onde o tinygrad é usado
- É usado no openpilot para executar modelos de direção baseados na GPU Snapdragon 845
- Substitui o Qualcomm SNPE, sendo mais rápido e oferecendo carregamento de ONNX, suporte a treinamento e recurso de attention
-
Recursos e desempenho
- Não é apenas para inferência e oferece suporte tanto ao forward quanto ao backward pass com base em autodiff
- Fornece uma API semelhante à do PyTorch, mas com estrutura mais simples
- Está em versão alpha, com estabilidade menor, embora recentemente esteja relativamente estável
- A fase alpha será encerrada quando for possível reproduzir papers 2x mais rápido que o PyTorch
- Fatores de ganho de velocidade
- Compilação de kernels sob medida para cada operação, otimizando conforme a forma
- Estrutura de lazy tensor para promover fortemente a fusão (fusion) de operações
- Backend conciso, permitindo ganho geral de desempenho ao otimizar kernels
-
Desenvolvimento e comunidade
- O desenvolvimento acontece no GitHub e no Discord
- Contribuições (PRs) para o tinygrad são consideradas um dos principais caminhos para contratação e participação em investimentos
- O objetivo da tiny corp é a comercialização do petaflop e a realização de IA para todos
1 comentários
Opiniões do Hacker News
Foi irônico porque este site passa muito a sensação de ter sido feito por mãos humanas, não por IA
O design e o tom do texto são muito humanos
Ainda assim, a ideia é excelente, e acho que esse tipo de modelo treinado localmente pode ser o futuro para reduzir a dependência dos modelos das big techs
Só seria bom se pudesse ligar direto em um circuito de 240V. Ter que achar dois circuitos de 120V é bem inconveniente
Acho que isso acontece porque o pessoal da área é sensível para distinguir sinal de ruído
Talvez o volume seja baixo o bastante para que PRs ruins possam ser gentilmente ignorados, então a forma de geração não importa muito
O modelo básico custar 12 mil dólares é caro demais
Eu rodo modelos de 120B parâmetros em um Apple M3 Max (128GB RAM) a 15~20 tokens por segundo com 80W de consumo
Não é perfeito, mas ainda parece melhor do que uma máquina de 12 mil dólares
Com isso dá para rodar gpt-oss-120b Q8 a uns 30 tokens por segundo
Não tem como o red v2 rodar um modelo de 120B direito
Eu mesmo montei um homelab de IA com duas A100, com 80GB de VRAM unidos por NVLink
Um modelo de 120B é impossível sem quantização pesada, e nesse ponto o modelo fica instável
Também falta espaço para o cache KV, então dá OOM por volta de 4k de contexto
Atualmente já fica apertado até para rodar modelos de 70B. Meu equipamento tem 16GB a mais de VRAM do que o red v2
Além disso, não entendo por que ele é 12U. O meu rig é 4U
O green v2 tem GPUs melhores, mas por 65 mil dólares o CPU e a RAM também deveriam ser muito melhores
Fico feliz que exista, mas sinceramente não entendo a proporção da configuração
Eu rodo gpt-oss-120b Q4 em uma caixa Epyc Milan dividindo entre RAM e GPU, e tiro algo como 30~50 tokens por segundo
A configuração 64G VRAM/128G RAM é ineficiente. Mesmo modelos MoE só precisam de algo como 20B no roteador, e o resto da VRAM é desperdício
A resposta deve ser algo do tipo: “Para reduzir o preço e manter a qualidade, não oferecemos customização do tamanho do servidor”
Eu uso um servidor com 8 GPUs (5 RTX 8000, 3 RTX 6000 Ada), e para inferência básica a 8000 já basta
O modelo green deve ser mais rápido, mas o custo adicional de 25 mil dólares não parece justificável
Quatro Blackwell 6000 custam entre 32 e 36 mil dólares, então não sei para onde foram os outros 30 mil
Alguns frameworks locais de IA suportam uma política LRU que usa só parte da VRAM como cache, então o overhead pode ser administrável
O exabox é interessante
Fico curioso sobre quem seria o cliente. Depois de ver o vídeo de lançamento do Vera Rubin, nem consigo imaginar alguém tentando competir com a NVIDIA no mercado hyperscale
Provavelmente estão mirando startups de ML focadas em custo-benefício
Olhando os preços, o Vera Rubin de fato sai pela metade do preço em um nível parecido de RAM de GPU
Ainda que não chegue perto da qualidade de interconexão da NV
Não sei quem compraria isso. A NV já está entregando
Se atacarem esse nicho, dá para competir. Se a fatia de mercado for menor que 0,01%, as gigantes nem vão se importar
Isso parece um novo tipo de minerador de cripto
Antes vendiam hardware para mineração, agora parece que vendem para IA
O Tinybox é legal, mas o mercado provavelmente quer mais produtos com garantia explícita de desempenho, tipo “consegue rodar Kimi 2.5 a 50 tokens por segundo”
Isso me fez lembrar do conceito de Decoy effect
Fico curioso para saber como fazem a refrigeração deste equipamento
Sobre a condição do tinygrad de “sair do alfa quando ficar 2x mais rápido que pytorch”
É preciso explicar com mais clareza em que tipo de workload o pytorch fica mais de 2x mais lento em relação ao hardware
A maioria dos artigos usa componentes padrão, e o pytorch já consegue extrair mais de 50% do desempenho da GPU
Se for um caso especial em que só dá desempenho escrevendo kernels customizados, então isso já é outra questão
Não entendo por que abandonaram a configuração de 6 GPUs
A de 4 GPUs (9070, RTX6000) usa design de 2 slots, então dá para montar até com placa-mãe comum
A de 6 GPUs precisa de risers, retimers PCIe, fonte dupla e gabinete customizado, então é mais complexa
Mesmo assim, acho que o custo-benefício era melhor