Tinybox – máquina de IA offline com suporte a 120B parâmetros

(tinygrad.org)

6 pontos por GN⁺ 2026-03-22 | 1 comentários | Compartilhar no WhatsApp

tinygrad é um framework de redes neurais que combina simplicidade e desempenho, implementando modelos complexos com uma estrutura mínima de operações
Com base nele, o tinybox é um computador de IA offline de alto desempenho para treinamento e inferência em deep learning, oferecido em três modelos: red, green e exa
O modelo superior green v2 blackwell entrega 3086 TFLOPS com 4 GPUs RTX PRO 6000 e está disponível para envio imediato por $65,000
O topo de linha exabox tem como meta cerca de 1 EXAFLOP de desempenho, com lançamento previsto para 2027 e preço na faixa de aproximadamente $10 milhões
A fabricante tiny corp tem como objetivo a comercialização do petaflop e a realização de IA para todos

Visão geral do tinygrad

O tinygrad é um framework de redes neurais focado em simplicidade e desempenho, e é um projeto em rápido crescimento
Ele compõe redes complexas com apenas 3 OpType: ElementwiseOps, ReduceOps e MovementOps
- ElementwiseOps realiza operações elemento a elemento sobre 1 a 3 tensores, incluindo SQRT, LOG2, ADD, MUL e WHERE
- ReduceOps recebe um tensor como entrada e retorna um tensor menor, com operações como SUM e MAX
- MovementOps é uma operação virtual que move dados sem cópia, usando ShapeTracker para executar RESHAPE, PERMUTE, EXPAND etc.
A implementação de operações como CONV e MATMUL pode ser verificada diretamente no código

Linha de produtos tinybox

O tinybox é um computador de alto desempenho para deep learning, composto por três modelos: red, green e exa
As principais especificações de cada modelo são as seguintes
- red v2
  - GPU: 4x 9070XT
  - Desempenho FP16(FP32 acc): 778 TFLOPS
  - RAM de GPU: 64GB, largura de banda de 2560 GB/s
  - CPU: AMD EPYC de 32 núcleos
  - RAM do sistema: 128GB, largura de banda de 204.8 GB/s
  - Disco: 2TB NVMe, velocidade de leitura de 7.3 GB/s
  - Rede: 2x 1GbE + OCP3.0
  - Fonte: 1600W
  - Ruído: abaixo de 50dB
  - Preço: $12,000, disponível para envio imediato
- green v2 blackwell
  - GPU: 4x RTX PRO 6000 Blackwell
  - Desempenho FP16(FP32 acc): 3086 TFLOPS
  - RAM de GPU: 384GB, largura de banda de 7168 GB/s
  - CPU: AMD GENOA de 32 núcleos
  - RAM do sistema: 192GB, largura de banda de 460.8 GB/s
  - Disco: RAID de 4TB + 1TB para boot, velocidade de leitura de 59.3 GB/s
  - Rede: 2x 10GbE + OCP3.0
  - Fonte: 2x 1600W
  - Ruído: 65dB (a 10m de distância)
  - Preço: $65,000, disponível para envio imediato
- exabox
  - GPU: 720x RDNA5 AT0 XL
  - Desempenho FP16(FP32 acc): cerca de 1 EXAFLOP
  - RAM de GPU: 25,920GB, largura de banda de 1244 TB/s
  - CPU: 120x AMD GENOA de 32 núcleos
  - RAM do sistema: 23,040GB, largura de banda de 55.2 TB/s
  - Disco: RAID de 480TB, velocidade de leitura de 7.1 TB/s
  - Rede: suporte a expansão PCIe5 3.2 TB/s
  - Energia: 600kW
  - Dimensões: 20x8x8.5 ft, peso de 20,000 lbs
  - Lançamento previsto: 2027, preço estimado em aproximadamente $10M
  - Todos os modelos usam o sistema operacional Ubuntu 24.04 e podem ser instalados em formato standalone ou rack mount
  - Atualizações de produto e estoque são fornecidas por meio da mailing list

FAQ

Visão geral do tinybox
- É um computador de alto desempenho para deep learning, com excelente relação custo-benefício
  - Foi testado no benchmark MLPerf Training 4.0 em comparação com sistemas 10 vezes mais caros
  - Além do treinamento, também pode executar inferência (inference)
Pedidos e envio
- Pode ser encomendado pelo site, com envio em até 1 semana após o pagamento
- Suporta retirada no local em San Diego ou envio para o mundo todo
Customização e pagamento
- Não é possível customizar para manter preço e qualidade
  - O pagamento é aceito apenas por transferência bancária (wire transfer)
  - O formulário W-9 é fornecido no link para download
Onde o tinygrad é usado
- É usado no openpilot para executar modelos de direção baseados na GPU Snapdragon 845
- Substitui o Qualcomm SNPE, sendo mais rápido e oferecendo carregamento de ONNX, suporte a treinamento e recurso de attention
Recursos e desempenho
- Não é apenas para inferência e oferece suporte tanto ao forward quanto ao backward pass com base em autodiff
- Fornece uma API semelhante à do PyTorch, mas com estrutura mais simples
- Está em versão alpha, com estabilidade menor, embora recentemente esteja relativamente estável
- A fase alpha será encerrada quando for possível reproduzir papers 2x mais rápido que o PyTorch
- Fatores de ganho de velocidade
  - Compilação de kernels sob medida para cada operação, otimizando conforme a forma
  - Estrutura de lazy tensor para promover fortemente a fusão (fusion) de operações
  - Backend conciso, permitindo ganho geral de desempenho ao otimizar kernels
Desenvolvimento e comunidade
- O desenvolvimento acontece no GitHub e no Discord
- Contribuições (PRs) para o tinygrad são consideradas um dos principais caminhos para contratação e participação em investimentos
- O objetivo da tiny corp é a comercialização do petaflop e a realização de IA para todos

1 comentários

GN⁺ 2026-03-22

Opiniões do Hacker News

Foi irônico porque este site passa muito a sensação de ter sido feito por mãos humanas, não por IA
O design e o tom do texto são muito humanos
Ainda assim, a ideia é excelente, e acho que esse tipo de modelo treinado localmente pode ser o futuro para reduzir a dependência dos modelos das big techs
Só seria bom se pudesse ligar direto em um circuito de 240V. Ter que achar dois circuitos de 120V é bem inconveniente
- A maioria dos textos sobre IA que realmente recebem respeito quase não mostra sinais de terem sido escritos por IA
  Acho que isso acontece porque o pessoal da área é sensível para distinguir sinal de ruído
- Achei estranho eles receberem contribuições de código publicamente com “Invest with your PRs” e ainda assim não terem uma política sobre código gerado por IA
  Talvez o volume seja baixo o bastante para que PRs ruins possam ser gentilmente ignorados, então a forma de geração não importa muito
- Para quem compra um equipamento de 65 mil dólares, achar dois circuitos deve ser um problema pequeno
- Na verdade, os circuitos de 240V nos EUA são dois 120V combinados, então refazer a fiação não é difícil
O modelo básico custar 12 mil dólares é caro demais
Eu rodo modelos de 120B parâmetros em um Apple M3 Max (128GB RAM) a 15~20 tokens por segundo com 80W de consumo
Não é perfeito, mas ainda parece melhor do que uma máquina de 12 mil dólares
- O desempenho em tflops do M3 Max é incomparavelmente menor do que o da caixa de 12k
- Esse tipo de equipamento é para trouxa. No ano passado comprei 160GB de VRAM por 1 mil dólares, e 96GB de VRAM P40 também sai por menos de mil dólares
  Com isso dá para rodar gpt-oss-120b Q8 a uns 30 tokens por segundo
Não tem como o red v2 rodar um modelo de 120B direito
Eu mesmo montei um homelab de IA com duas A100, com 80GB de VRAM unidos por NVLink
Um modelo de 120B é impossível sem quantização pesada, e nesse ponto o modelo fica instável
Também falta espaço para o cache KV, então dá OOM por volta de 4k de contexto
Atualmente já fica apertado até para rodar modelos de 70B. Meu equipamento tem 16GB a mais de VRAM do que o red v2
Além disso, não entendo por que ele é 12U. O meu rig é 4U
O green v2 tem GPUs melhores, mas por 65 mil dólares o CPU e a RAM também deveriam ser muito melhores
Fico feliz que exista, mas sinceramente não entendo a proporção da configuração
- O desempenho é ok, mas não é nada insano
  Eu rodo gpt-oss-120b Q4 em uma caixa Epyc Milan dividindo entre RAM e GPU, e tiro algo como 30~50 tokens por segundo
  A configuração 64G VRAM/128G RAM é ineficiente. Mesmo modelos MoE só precisam de algo como 20B no roteador, e o resto da VRAM é desperdício
- O motivo de ser 12U provavelmente é usar um único SKU de gabinete
  A resposta deve ser algo do tipo: “Para reduzir o preço e manter a qualidade, não oferecemos customização do tamanho do servidor”
- Sinceramente, duas RTX 8000 provavelmente teriam ROI melhor do que o red v2
  Eu uso um servidor com 8 GPUs (5 RTX 8000, 3 RTX 6000 Ada), e para inferência básica a 8000 já basta
  O modelo green deve ser mais rápido, mas o custo adicional de 25 mil dólares não parece justificável
- Fico me perguntando se isso saiu mais barato do que Blackwell 6000
  Quatro Blackwell 6000 custam entre 32 e 36 mil dólares, então não sei para onde foram os outros 30 mil
- Acho que daria para usar contextos mais longos fazendo offload do KV para a RAM do sistema ou para armazenamento
  Alguns frameworks locais de IA suportam uma política LRU que usa só parte da VRAM como cache, então o overhead pode ser administrável
O exabox é interessante
Fico curioso sobre quem seria o cliente. Depois de ver o vídeo de lançamento do Vera Rubin, nem consigo imaginar alguém tentando competir com a NVIDIA no mercado hyperscale
Provavelmente estão mirando startups de ML focadas em custo-benefício
Olhando os preços, o Vera Rubin de fato sai pela metade do preço em um nível parecido de RAM de GPU
Ainda que não chegue perto da qualidade de interconexão da NV
Não sei quem compraria isso. A NV já está entregando
- A infraestrutura das grandes empresas muitas vezes tem mais de 5 anos, então o custo de upgrade é alto demais para trocar facilmente
  Se atacarem esse nicho, dá para competir. Se a fatia de mercado for menor que 0,01%, as gigantes nem vão se importar
- Como piada em resposta a “o exabox é interessante”, alguém comentou: “Roda Crysis?”
Isso parece um novo tipo de minerador de cripto
Antes vendiam hardware para mineração, agora parece que vendem para IA
- É parecido, mas a diferença é que não existem blocos de recompensa
O Tinybox é legal, mas o mercado provavelmente quer mais produtos com garantia explícita de desempenho, tipo “consegue rodar Kimi 2.5 a 50 tokens por segundo”
Isso me fez lembrar do conceito de Decoy effect
Fico curioso para saber como fazem a refrigeração deste equipamento
Sobre a condição do tinygrad de “sair do alfa quando ficar 2x mais rápido que pytorch”
É preciso explicar com mais clareza em que tipo de workload o pytorch fica mais de 2x mais lento em relação ao hardware
A maioria dos artigos usa componentes padrão, e o pytorch já consegue extrair mais de 50% do desempenho da GPU
Se for um caso especial em que só dá desempenho escrevendo kernels customizados, então isso já é outra questão
Não entendo por que abandonaram a configuração de 6 GPUs
A de 4 GPUs (9070, RTX6000) usa design de 2 slots, então dá para montar até com placa-mãe comum
A de 6 GPUs precisa de risers, retimers PCIe, fonte dupla e gabinete customizado, então é mais complexa
Mesmo assim, acho que o custo-benefício era melhor

Tinybox – máquina de IA offline com suporte a 120B parâmetros

Visão geral do tinygrad

Linha de produtos tinybox

red v2

green v2 blackwell

exabox

FAQ

Visão geral do tinybox

É um computador de alto desempenho para deep learning, com excelente relação custo-benefício

Pedidos e envio

Customização e pagamento

Não é possível customizar para manter preço e qualidade

Onde o tinygrad é usado

Recursos e desempenho

Desenvolvimento e comunidade

Leituras relacionadas

1 comentários

Opiniões do Hacker News