Lições aprendidas dentro dos laboratórios de IA da China
(interconnects.ai)- Relato de campo baseado em visitas diretas aos principais laboratórios de IA da China e conversas com pesquisadores, analisando as diferenças culturais entre os ecossistemas de IA da China e dos EUA e como elas afetam o desenvolvimento de modelos
- Pesquisadores chineses mostram uma tendência cultural de focar na otimização da qualidade do modelo final em vez da reputação individual, e uma parte significativa dos principais contribuintes ainda é formada por estudantes ativos
- Empresas chinesas de IA têm um forte senso de propriedade sobre sua tecnologia e preferem controlar sua própria stack tecnológica em vez de comprar serviços externos; até a abertura em open source é baseada em julgamentos pragmáticos
- A maioria dos desenvolvedores de IA na China usa Claude, e a demanda por IA corporativa pode acabar seguindo a trajetória do mercado de nuvem, e não a de SaaS
- Os ecossistemas de IA dos EUA e da China funcionam de formas estruturalmente diferentes, e tentar mapear a indústria chinesa de IA de forma simplista com frameworks ocidentais pode gerar um erro de categoria
A forma de pensar dos pesquisadores chineses
- As empresas chinesas que desenvolvem LLMs combinam tradições culturais antigas ligadas à educação e ao trabalho com diferenças sutis na operação de empresas de tecnologia, o que lhes dá a estrutura ideal para atuar como fast followers
- Construir os LLMs mais recentes depende de trabalho minucioso em toda a stack, incluindo dados, detalhes de arquitetura e implementação de algoritmos de RL; é um processo complexo em que os resultados de contribuições individuais precisam ceder espaço à otimização multifuncional do modelo como um todo
- Pesquisadores americanos vivem em uma cultura muito mais forte de autopromoção, e a busca por reputação como um “cientista de IA de ponta” acaba gerando conflitos dentro das organizações
- Circulam amplamente rumores de que a organização do Llama entrou em colapso sob o peso desses interesses políticos internos
- Também existem histórias de laboratórios que precisaram compensar pesquisadores de elite por reclamarem que suas ideias não foram refletidas no modelo final
- Uma parte significativa dos principais contribuintes em laboratórios chineses é formada por estudantes ativos, e os próprios laboratórios são organizações muito jovens
- Isso se parece com a estrutura da Ai2, em que estudantes são tratados como pares e integrados diretamente às equipes de LLM
- Já OpenAI, Anthropic e Cursor, nos EUA, não oferecem estágios, e até estágios ligados ao Gemini, do Google, podem correr o risco de ficar separados do trabalho real
- Fatores concretos pelos quais essas diferenças culturais melhoram a capacidade de construir modelos:
- Alta disposição para trabalhos pouco visíveis em nome da melhoria do modelo final
- Novos profissionais de IA não estão presos a ciclos anteriores de hype e se adaptam mais rápido às tecnologias atuais
- Menos ego torna a estrutura organizacional um pouco mais escalável e menos suscetível a “gaming” do sistema
- Um pool abundante de talentos adequado para resolver problemas já validados conceitualmente em outros lugares
- Essas vantagens contrastam com o estereótipo conhecido de que pesquisadores chineses produzem menos pesquisa acadêmica criativa e pioneira no estilo 0-to-1
- Líderes de laboratórios acadêmicos vêm tentando cultivar uma cultura de pesquisa mais ambiciosa
- Alguns líderes técnicos se mostram céticos, dizendo que redesenhar os sistemas de educação e incentivos é um desafio grande demais para ser realizado dentro do equilíbrio econômico atual
Características dos estudantes pesquisadores
- A China também vive um fenômeno de fuga de cérebros, semelhante ao dos EUA, e muitos que antes cogitavam a carreira acadêmica agora tendem a permanecer na indústria
- Um pesquisador disse que tinha interesse em ser professor, mas comentou: “o ensino será resolvido por LLMs — por que um aluno me faria perguntas?”
- Os estudantes têm a vantagem de abordar os LLMs sem ideias preconcebidas
- Nos últimos anos, o paradigma central dos LLMs mudou de escalonamento de MoE → escalonamento de RL → uso de agentes
- Para fazer tudo isso bem, é preciso absorver rapidamente o contexto de uma literatura ampla e de toda a stack tecnológica, e os estudantes estão acostumados com esse tipo de tarefa e são entusiasmados com ela
- Estudantes pesquisadores chineses se envolvem menos em discursos filosóficos e são muito diretos
- Há muito menos pesquisadores chineses do que americanos com opiniões sofisticadas sobre a economia dos modelos ou riscos sociais de longo prazo
- Um pesquisador citou a conhecida premissa de Dan Wang de que “a China é administrada por engenheiros, e os EUA são administrados por advogados”
- Na China, não existe um caminho sistemático para ampliar o poder de estrela dos cientistas por meio de podcasts megamainstream como os de Dwarkesh ou Lex
- Em perguntas sobre a incerteza econômica causada pela IA, temas além de AGI e debates morais sobre o comportamento dos modelos, os cientistas chineses refletiam características de um sistema em que opiniões sobre debate e estrutura social não são incentivadas
O clima em Pequim e no ecossistema chinês de IA
- Pequim parece muito com a Bay Area, com laboratórios concorrentes localizados a distância de caminhada ou em trajetos curtos
- Em 36 horas, foram visitados Z.ai, Moonshot AI, Universidade Tsinghua, Meituan, Xiaomi e 01.ai
- É fácil se locomover com Didi, e na China os veículos XL frequentemente são minivans elétricas com cadeiras de massagem
- A disputa por talentos entre pesquisadores é muito parecida com a dos EUA: trocar de laboratório é comum, e o critério de escolha costuma ser o lugar com o melhor clima naquele momento
- A comunidade chinesa de LLMs parece mais um ecossistema do que um conjunto de tribos rivais
- Todos os laboratórios chineses observam com cautela a ByteDance, dona do popular modelo Doubao
- A ByteDance é o único laboratório chinês de fronteira que é fechado
- Todos os laboratórios respeitam a DeepSeek como a liderança técnica com melhor faro de pesquisa na execução
- Isso contrasta com os EUA, onde encontros informais entre membros de laboratórios rapidamente fazem sair faísca
- Um dos aspectos mais impressionantes da humildade dos pesquisadores chineses é a indiferença em relação ao lado dos negócios, tratada como “não é problema meu”
- Nos EUA, todo mundo parece obcecado por tendências industriais em nível de ecossistema, como vendedores de dados, compute e captação de recursos
Diferenças e semelhanças da indústria chinesa de IA
- Hoje, construir modelos de IA deixou de ser apenas um resultado de engenharia de grandes pesquisadores e se tornou uma atividade composta por construção, implantação, financiamento e adoção
- Seis diferenças principais em relação ao ecossistema ocidental:
-
1. Sinais iniciais da demanda doméstica por IA
- Existe a hipótese de que as empresas chinesas não pagam por software e, por isso, não surgirá um grande mercado de inferência
- Isso só é historicamente verdadeiro no caso do ecossistema de SaaS, que sempre foi muito pequeno na China; ainda assim, o país mantém um grande mercado de nuvem
- A principal pergunta em aberto é: o gasto corporativo com IA vai seguir o mercado de SaaS (pequeno) ou o mercado de nuvem (fundamental)?
- No geral, a IA parece seguir uma trajetória mais próxima da nuvem, e ninguém parecia particularmente preocupado com o crescimento do mercado em torno dessas novas ferramentas
-
2. A maioria dos desenvolvedores usa Claude
- A maior parte dos desenvolvedores de IA na China é fã do Claude e se concentra em como ele mudou a forma de construir software
- Isso acontece mesmo com o Claude estando nominalmente proibido na China
- Alguns pesquisadores mencionaram usar ferramentas próprias, como Kimi ou GLM CLI, mas todos mencionavam o uso de Claude
- Houve surpreendentemente pouca menção ao Codex, que vem ganhando popularidade rapidamente na Bay Area
- Mesmo que a China historicamente tenha sido relutante em comprar software, isso não passa a impressão de que não haverá um grande salto na demanda por inferência
-
3. Senso de propriedade tecnológica
- A cultura chinesa, combinada com um motor econômico muito ativo, produz resultados imprevisíveis
- Muitos modelos de IA refletem não um plano mestre, mas o equilíbrio pragmático e imediato de várias empresas de tecnologia
- A indústria respeita ByteDance e Alibaba como incumbentes que provavelmente vencerão a maior parte dos mercados graças aos seus recursos consideráveis
- A DeepSeek é uma liderança técnica respeitada, mas ainda está distante de ser líder de mercado; define direção, mas não está estruturada para vencer economicamente
- Para o Ocidente, pode soar surpreendente que empresas como Meituan (entrega) ou Ant Group estejam construindo modelos, mas a lógica é que os LLMs serão centrais para os produtos tecnológicos do futuro, então é preciso ter uma base forte
- Ao fazer fine-tuning de modelos gerais, essas empresas podem reforçar sua stack com feedback da comunidade aberta e manter versões de fine-tuning interno para seus próprios produtos
- A mentalidade “open first” se baseia em pragmatismo: obter feedback forte sobre o modelo, contribuir com a comunidade open source e fortalecer a missão
-
4. O apoio do governo é real, mas o tamanho é incerto
- Costuma-se afirmar que o governo chinês apoia ativamente a competição por LLMs abertos
- Trata-se de um governo descentralizado em vários níveis, e não existe um playbook claro sobre o que exatamente cada nível faz
- Distritos de Pequim competem entre si para atrair escritórios de empresas de tecnologia
- A “ajuda” oferecida quase certamente inclui simplificação de procedimentos burocráticos, como licenças, mas não está claro até onde isso vai em atração de talentos ou até contrabando de chips
- Durante a visita, houve várias menções a interesse ou ajuda do governo, mas os detalhes eram insuficientes demais para relatar isso de forma categórica
- Não houve qualquer indício de que o alto escalão do governo chinês influencie decisões técnicas sobre os modelos
-
5. A indústria de dados é muito menos desenvolvida
- Como já se ouviu que Anthropic e OpenAI gastam mais de US$ 10 milhões em um único ambiente e centenas de milhões por ano para expandir a fronteira de RL, a intenção era verificar se laboratórios chineses compravam os mesmos ambientes de empresas americanas ou contavam com apoio do ecossistema local
- Não é que a indústria de dados seja inexistente, mas sua qualidade é relativamente inferior, de modo que muitas vezes é melhor construir internamente os ambientes ou os dados
- Pesquisadores investem muito tempo na construção direta de ambientes de treinamento de RL
- Grandes empresas como ByteDance e Alibaba têm equipes internas de rotulagem de dados para sustentar isso
- Tudo isso reflete a mentalidade de construir em vez de comprar mencionada anteriormente
-
6. Demanda desesperada por chips da Nvidia
- O compute da Nvidia é o padrão-ouro para treinamento, e todos os laboratórios têm seu avanço limitado pela falta dele
- Se houver oferta, é certo que comprarão
- Outros aceleradores, incluindo os da Huawei, recebem avaliações positivas para inferência, e muitos laboratórios têm acesso a chips da Huawei
- Esses pontos mostram um ecossistema de IA muito diferente, no qual mapear rapidamente para a China a forma como laboratórios ocidentais operam pode gerar um erro de categoria
- A pergunta central é se esses ecossistemas diferentes vão produzir tipos de modelo significativamente distintos, ou se os modelos chineses sempre serão descritos como versões de 3 a 9 meses antes dos modelos de fronteira americanos
Equilíbrio global
- A China não é um lugar que possa ser descrito por regras ou receitas; trata-se de um ambiente com dinâmicas e química muito diferentes
- Sua cultura é muito antiga e profunda, e está totalmente entrelaçada com a forma como a tecnologia doméstica é construída
- A atual estrutura de poder dos EUA usa sua visão de mundo sobre a China como mecanismo central de decisão, mas a China possui qualidades e instintos muito difíceis de modelar com base na tomada de decisão ocidental
- Mesmo perguntando diretamente por que esses laboratórios liberam seus melhores modelos em aberto, é difícil conectar o senso de propriedade com o apoio genuíno ao ecossistema
- Quase todas as grandes empresas de tecnologia da China estão construindo seus próprios LLMs gerais
- Meituan (entrega), Xiaomi (empresa ampla de tecnologia de consumo) e outras estão liberando modelos com pesos abertos
- Empresas equivalentes nos EUA simplesmente comprariam o serviço
- Essas empresas não estão construindo LLMs para seguir uma tendência do momento, mas por um desejo profundo e fundamental de controlar sua própria stack e desenvolver a tecnologia mais importante da era
- A humanidade, o carisma e o calor genuíno dos pesquisadores chineses foram uma experiência muito humana
- O discurso geopolítico frio que é comum nos EUA simplesmente não havia penetrado neles
- Se o ecossistema aberto prosperar globalmente, será possível criar uma IA mais segura, acessível e útil, e a questão atual é se os laboratórios americanos vão tomar medidas para ocupar essa posição de liderança
- Também circulam mais rumores sobre ordens executivas que afetariam modelos abertos, o que pode tornar ainda mais complexa a sinergia entre a liderança americana e o ecossistema global
2 comentários
Às vezes me preocupo se essa obsessão excessiva e irracional com a China
não estaria criando o monstro dentro de nós.
Como quando um dos pretextos para a ascensão dos nazistas ao poder foi o anticomunismo.
Uma única China...!