Lições aprendidas dentro dos laboratórios de IA da China

(interconnects.ai)

11 pontos por GN⁺ 5 시간 전 | 2 comentários | Compartilhar no WhatsApp

Relato de campo baseado em visitas diretas aos principais laboratórios de IA da China e conversas com pesquisadores, analisando as diferenças culturais entre os ecossistemas de IA da China e dos EUA e como elas afetam o desenvolvimento de modelos
Pesquisadores chineses mostram uma tendência cultural de focar na otimização da qualidade do modelo final em vez da reputação individual, e uma parte significativa dos principais contribuintes ainda é formada por estudantes ativos
Empresas chinesas de IA têm um forte senso de propriedade sobre sua tecnologia e preferem controlar sua própria stack tecnológica em vez de comprar serviços externos; até a abertura em open source é baseada em julgamentos pragmáticos
A maioria dos desenvolvedores de IA na China usa Claude, e a demanda por IA corporativa pode acabar seguindo a trajetória do mercado de nuvem, e não a de SaaS
Os ecossistemas de IA dos EUA e da China funcionam de formas estruturalmente diferentes, e tentar mapear a indústria chinesa de IA de forma simplista com frameworks ocidentais pode gerar um erro de categoria

A forma de pensar dos pesquisadores chineses

As empresas chinesas que desenvolvem LLMs combinam tradições culturais antigas ligadas à educação e ao trabalho com diferenças sutis na operação de empresas de tecnologia, o que lhes dá a estrutura ideal para atuar como fast followers
Construir os LLMs mais recentes depende de trabalho minucioso em toda a stack, incluindo dados, detalhes de arquitetura e implementação de algoritmos de RL; é um processo complexo em que os resultados de contribuições individuais precisam ceder espaço à otimização multifuncional do modelo como um todo
Pesquisadores americanos vivem em uma cultura muito mais forte de autopromoção, e a busca por reputação como um “cientista de IA de ponta” acaba gerando conflitos dentro das organizações
- Circulam amplamente rumores de que a organização do Llama entrou em colapso sob o peso desses interesses políticos internos
- Também existem histórias de laboratórios que precisaram compensar pesquisadores de elite por reclamarem que suas ideias não foram refletidas no modelo final
Uma parte significativa dos principais contribuintes em laboratórios chineses é formada por estudantes ativos, e os próprios laboratórios são organizações muito jovens
- Isso se parece com a estrutura da Ai2, em que estudantes são tratados como pares e integrados diretamente às equipes de LLM
- Já OpenAI, Anthropic e Cursor, nos EUA, não oferecem estágios, e até estágios ligados ao Gemini, do Google, podem correr o risco de ficar separados do trabalho real
Fatores concretos pelos quais essas diferenças culturais melhoram a capacidade de construir modelos:
- Alta disposição para trabalhos pouco visíveis em nome da melhoria do modelo final
- Novos profissionais de IA não estão presos a ciclos anteriores de hype e se adaptam mais rápido às tecnologias atuais
- Menos ego torna a estrutura organizacional um pouco mais escalável e menos suscetível a “gaming” do sistema
- Um pool abundante de talentos adequado para resolver problemas já validados conceitualmente em outros lugares
Essas vantagens contrastam com o estereótipo conhecido de que pesquisadores chineses produzem menos pesquisa acadêmica criativa e pioneira no estilo 0-to-1
- Líderes de laboratórios acadêmicos vêm tentando cultivar uma cultura de pesquisa mais ambiciosa
- Alguns líderes técnicos se mostram céticos, dizendo que redesenhar os sistemas de educação e incentivos é um desafio grande demais para ser realizado dentro do equilíbrio econômico atual

Características dos estudantes pesquisadores

A China também vive um fenômeno de fuga de cérebros, semelhante ao dos EUA, e muitos que antes cogitavam a carreira acadêmica agora tendem a permanecer na indústria
- Um pesquisador disse que tinha interesse em ser professor, mas comentou: “o ensino será resolvido por LLMs — por que um aluno me faria perguntas?”
Os estudantes têm a vantagem de abordar os LLMs sem ideias preconcebidas
- Nos últimos anos, o paradigma central dos LLMs mudou de escalonamento de MoE → escalonamento de RL → uso de agentes
- Para fazer tudo isso bem, é preciso absorver rapidamente o contexto de uma literatura ampla e de toda a stack tecnológica, e os estudantes estão acostumados com esse tipo de tarefa e são entusiasmados com ela
Estudantes pesquisadores chineses se envolvem menos em discursos filosóficos e são muito diretos
- Há muito menos pesquisadores chineses do que americanos com opiniões sofisticadas sobre a economia dos modelos ou riscos sociais de longo prazo
- Um pesquisador citou a conhecida premissa de Dan Wang de que “a China é administrada por engenheiros, e os EUA são administrados por advogados”
- Na China, não existe um caminho sistemático para ampliar o poder de estrela dos cientistas por meio de podcasts megamainstream como os de Dwarkesh ou Lex
Em perguntas sobre a incerteza econômica causada pela IA, temas além de AGI e debates morais sobre o comportamento dos modelos, os cientistas chineses refletiam características de um sistema em que opiniões sobre debate e estrutura social não são incentivadas

O clima em Pequim e no ecossistema chinês de IA

Pequim parece muito com a Bay Area, com laboratórios concorrentes localizados a distância de caminhada ou em trajetos curtos
- Em 36 horas, foram visitados Z.ai, Moonshot AI, Universidade Tsinghua, Meituan, Xiaomi e 01.ai
- É fácil se locomover com Didi, e na China os veículos XL frequentemente são minivans elétricas com cadeiras de massagem
A disputa por talentos entre pesquisadores é muito parecida com a dos EUA: trocar de laboratório é comum, e o critério de escolha costuma ser o lugar com o melhor clima naquele momento
A comunidade chinesa de LLMs parece mais um ecossistema do que um conjunto de tribos rivais
- Todos os laboratórios chineses observam com cautela a ByteDance, dona do popular modelo Doubao
- A ByteDance é o único laboratório chinês de fronteira que é fechado
- Todos os laboratórios respeitam a DeepSeek como a liderança técnica com melhor faro de pesquisa na execução
- Isso contrasta com os EUA, onde encontros informais entre membros de laboratórios rapidamente fazem sair faísca
Um dos aspectos mais impressionantes da humildade dos pesquisadores chineses é a indiferença em relação ao lado dos negócios, tratada como “não é problema meu”
- Nos EUA, todo mundo parece obcecado por tendências industriais em nível de ecossistema, como vendedores de dados, compute e captação de recursos

Diferenças e semelhanças da indústria chinesa de IA

Hoje, construir modelos de IA deixou de ser apenas um resultado de engenharia de grandes pesquisadores e se tornou uma atividade composta por construção, implantação, financiamento e adoção
Seis diferenças principais em relação ao ecossistema ocidental:
1. Sinais iniciais da demanda doméstica por IA
- Existe a hipótese de que as empresas chinesas não pagam por software e, por isso, não surgirá um grande mercado de inferência
- Isso só é historicamente verdadeiro no caso do ecossistema de SaaS, que sempre foi muito pequeno na China; ainda assim, o país mantém um grande mercado de nuvem
- A principal pergunta em aberto é: o gasto corporativo com IA vai seguir o mercado de SaaS (pequeno) ou o mercado de nuvem (fundamental)?
- No geral, a IA parece seguir uma trajetória mais próxima da nuvem, e ninguém parecia particularmente preocupado com o crescimento do mercado em torno dessas novas ferramentas
2. A maioria dos desenvolvedores usa Claude
- A maior parte dos desenvolvedores de IA na China é fã do Claude e se concentra em como ele mudou a forma de construir software
- Isso acontece mesmo com o Claude estando nominalmente proibido na China
- Alguns pesquisadores mencionaram usar ferramentas próprias, como Kimi ou GLM CLI, mas todos mencionavam o uso de Claude
- Houve surpreendentemente pouca menção ao Codex, que vem ganhando popularidade rapidamente na Bay Area
- Mesmo que a China historicamente tenha sido relutante em comprar software, isso não passa a impressão de que não haverá um grande salto na demanda por inferência
3. Senso de propriedade tecnológica
- A cultura chinesa, combinada com um motor econômico muito ativo, produz resultados imprevisíveis
- Muitos modelos de IA refletem não um plano mestre, mas o equilíbrio pragmático e imediato de várias empresas de tecnologia
- A indústria respeita ByteDance e Alibaba como incumbentes que provavelmente vencerão a maior parte dos mercados graças aos seus recursos consideráveis
- A DeepSeek é uma liderança técnica respeitada, mas ainda está distante de ser líder de mercado; define direção, mas não está estruturada para vencer economicamente
- Para o Ocidente, pode soar surpreendente que empresas como Meituan (entrega) ou Ant Group estejam construindo modelos, mas a lógica é que os LLMs serão centrais para os produtos tecnológicos do futuro, então é preciso ter uma base forte
- Ao fazer fine-tuning de modelos gerais, essas empresas podem reforçar sua stack com feedback da comunidade aberta e manter versões de fine-tuning interno para seus próprios produtos
- A mentalidade “open first” se baseia em pragmatismo: obter feedback forte sobre o modelo, contribuir com a comunidade open source e fortalecer a missão
4. O apoio do governo é real, mas o tamanho é incerto
- Costuma-se afirmar que o governo chinês apoia ativamente a competição por LLMs abertos
- Trata-se de um governo descentralizado em vários níveis, e não existe um playbook claro sobre o que exatamente cada nível faz
- Distritos de Pequim competem entre si para atrair escritórios de empresas de tecnologia
- A “ajuda” oferecida quase certamente inclui simplificação de procedimentos burocráticos, como licenças, mas não está claro até onde isso vai em atração de talentos ou até contrabando de chips
- Durante a visita, houve várias menções a interesse ou ajuda do governo, mas os detalhes eram insuficientes demais para relatar isso de forma categórica
- Não houve qualquer indício de que o alto escalão do governo chinês influencie decisões técnicas sobre os modelos
5. A indústria de dados é muito menos desenvolvida
- Como já se ouviu que Anthropic e OpenAI gastam mais de US$ 10 milhões em um único ambiente e centenas de milhões por ano para expandir a fronteira de RL, a intenção era verificar se laboratórios chineses compravam os mesmos ambientes de empresas americanas ou contavam com apoio do ecossistema local
- Não é que a indústria de dados seja inexistente, mas sua qualidade é relativamente inferior, de modo que muitas vezes é melhor construir internamente os ambientes ou os dados
- Pesquisadores investem muito tempo na construção direta de ambientes de treinamento de RL
- Grandes empresas como ByteDance e Alibaba têm equipes internas de rotulagem de dados para sustentar isso
- Tudo isso reflete a mentalidade de construir em vez de comprar mencionada anteriormente
6. Demanda desesperada por chips da Nvidia
- O compute da Nvidia é o padrão-ouro para treinamento, e todos os laboratórios têm seu avanço limitado pela falta dele
- Se houver oferta, é certo que comprarão
- Outros aceleradores, incluindo os da Huawei, recebem avaliações positivas para inferência, e muitos laboratórios têm acesso a chips da Huawei
Esses pontos mostram um ecossistema de IA muito diferente, no qual mapear rapidamente para a China a forma como laboratórios ocidentais operam pode gerar um erro de categoria
A pergunta central é se esses ecossistemas diferentes vão produzir tipos de modelo significativamente distintos, ou se os modelos chineses sempre serão descritos como versões de 3 a 9 meses antes dos modelos de fronteira americanos

Equilíbrio global

A China não é um lugar que possa ser descrito por regras ou receitas; trata-se de um ambiente com dinâmicas e química muito diferentes
- Sua cultura é muito antiga e profunda, e está totalmente entrelaçada com a forma como a tecnologia doméstica é construída
A atual estrutura de poder dos EUA usa sua visão de mundo sobre a China como mecanismo central de decisão, mas a China possui qualidades e instintos muito difíceis de modelar com base na tomada de decisão ocidental
Mesmo perguntando diretamente por que esses laboratórios liberam seus melhores modelos em aberto, é difícil conectar o senso de propriedade com o apoio genuíno ao ecossistema
Quase todas as grandes empresas de tecnologia da China estão construindo seus próprios LLMs gerais
- Meituan (entrega), Xiaomi (empresa ampla de tecnologia de consumo) e outras estão liberando modelos com pesos abertos
- Empresas equivalentes nos EUA simplesmente comprariam o serviço
- Essas empresas não estão construindo LLMs para seguir uma tendência do momento, mas por um desejo profundo e fundamental de controlar sua própria stack e desenvolver a tecnologia mais importante da era
A humanidade, o carisma e o calor genuíno dos pesquisadores chineses foram uma experiência muito humana
- O discurso geopolítico frio que é comum nos EUA simplesmente não havia penetrado neles
Se o ecossistema aberto prosperar globalmente, será possível criar uma IA mais segura, acessível e útil, e a questão atual é se os laboratórios americanos vão tomar medidas para ocupar essa posição de liderança
Também circulam mais rumores sobre ordens executivas que afetariam modelos abertos, o que pode tornar ainda mais complexa a sinergia entre a liderança americana e o ecossistema global

2 comentários

jjw9512151 5 분 전

Às vezes me preocupo se essa obsessão excessiva e irracional com a China
não estaria criando o monstro dentro de nós.

Como quando um dos pretextos para a ascensão dos nazistas ao poder foi o anticomunismo.

kaydash 14 분 전

Uma única China...!

Lições aprendidas dentro dos laboratórios de IA da China

A forma de pensar dos pesquisadores chineses

Características dos estudantes pesquisadores

O clima em Pequim e no ecossistema chinês de IA

Diferenças e semelhanças da indústria chinesa de IA

1. Sinais iniciais da demanda doméstica por IA

2. A maioria dos desenvolvedores usa Claude

3. Senso de propriedade tecnológica

4. O apoio do governo é real, mas o tamanho é incerto

5. A indústria de dados é muito menos desenvolvida

6. Demanda desesperada por chips da Nvidia

Equilíbrio global

Leituras relacionadas

2 comentários