11 pontos por GN⁺ 5 시간 전 | 2 comentários | Compartilhar no WhatsApp
  • Relato de campo baseado em visitas diretas aos principais laboratórios de IA da China e conversas com pesquisadores, analisando as diferenças culturais entre os ecossistemas de IA da China e dos EUA e como elas afetam o desenvolvimento de modelos
  • Pesquisadores chineses mostram uma tendência cultural de focar na otimização da qualidade do modelo final em vez da reputação individual, e uma parte significativa dos principais contribuintes ainda é formada por estudantes ativos
  • Empresas chinesas de IA têm um forte senso de propriedade sobre sua tecnologia e preferem controlar sua própria stack tecnológica em vez de comprar serviços externos; até a abertura em open source é baseada em julgamentos pragmáticos
  • A maioria dos desenvolvedores de IA na China usa Claude, e a demanda por IA corporativa pode acabar seguindo a trajetória do mercado de nuvem, e não a de SaaS
  • Os ecossistemas de IA dos EUA e da China funcionam de formas estruturalmente diferentes, e tentar mapear a indústria chinesa de IA de forma simplista com frameworks ocidentais pode gerar um erro de categoria

A forma de pensar dos pesquisadores chineses

  • As empresas chinesas que desenvolvem LLMs combinam tradições culturais antigas ligadas à educação e ao trabalho com diferenças sutis na operação de empresas de tecnologia, o que lhes dá a estrutura ideal para atuar como fast followers
  • Construir os LLMs mais recentes depende de trabalho minucioso em toda a stack, incluindo dados, detalhes de arquitetura e implementação de algoritmos de RL; é um processo complexo em que os resultados de contribuições individuais precisam ceder espaço à otimização multifuncional do modelo como um todo
  • Pesquisadores americanos vivem em uma cultura muito mais forte de autopromoção, e a busca por reputação como um “cientista de IA de ponta” acaba gerando conflitos dentro das organizações
    • Circulam amplamente rumores de que a organização do Llama entrou em colapso sob o peso desses interesses políticos internos
    • Também existem histórias de laboratórios que precisaram compensar pesquisadores de elite por reclamarem que suas ideias não foram refletidas no modelo final
  • Uma parte significativa dos principais contribuintes em laboratórios chineses é formada por estudantes ativos, e os próprios laboratórios são organizações muito jovens
    • Isso se parece com a estrutura da Ai2, em que estudantes são tratados como pares e integrados diretamente às equipes de LLM
    • Já OpenAI, Anthropic e Cursor, nos EUA, não oferecem estágios, e até estágios ligados ao Gemini, do Google, podem correr o risco de ficar separados do trabalho real
  • Fatores concretos pelos quais essas diferenças culturais melhoram a capacidade de construir modelos:
    • Alta disposição para trabalhos pouco visíveis em nome da melhoria do modelo final
    • Novos profissionais de IA não estão presos a ciclos anteriores de hype e se adaptam mais rápido às tecnologias atuais
    • Menos ego torna a estrutura organizacional um pouco mais escalável e menos suscetível a “gaming” do sistema
    • Um pool abundante de talentos adequado para resolver problemas já validados conceitualmente em outros lugares
  • Essas vantagens contrastam com o estereótipo conhecido de que pesquisadores chineses produzem menos pesquisa acadêmica criativa e pioneira no estilo 0-to-1
    • Líderes de laboratórios acadêmicos vêm tentando cultivar uma cultura de pesquisa mais ambiciosa
    • Alguns líderes técnicos se mostram céticos, dizendo que redesenhar os sistemas de educação e incentivos é um desafio grande demais para ser realizado dentro do equilíbrio econômico atual

Características dos estudantes pesquisadores

  • A China também vive um fenômeno de fuga de cérebros, semelhante ao dos EUA, e muitos que antes cogitavam a carreira acadêmica agora tendem a permanecer na indústria
    • Um pesquisador disse que tinha interesse em ser professor, mas comentou: “o ensino será resolvido por LLMs — por que um aluno me faria perguntas?
  • Os estudantes têm a vantagem de abordar os LLMs sem ideias preconcebidas
    • Nos últimos anos, o paradigma central dos LLMs mudou de escalonamento de MoE → escalonamento de RL → uso de agentes
    • Para fazer tudo isso bem, é preciso absorver rapidamente o contexto de uma literatura ampla e de toda a stack tecnológica, e os estudantes estão acostumados com esse tipo de tarefa e são entusiasmados com ela
  • Estudantes pesquisadores chineses se envolvem menos em discursos filosóficos e são muito diretos
    • Há muito menos pesquisadores chineses do que americanos com opiniões sofisticadas sobre a economia dos modelos ou riscos sociais de longo prazo
    • Um pesquisador citou a conhecida premissa de Dan Wang de que “a China é administrada por engenheiros, e os EUA são administrados por advogados
    • Na China, não existe um caminho sistemático para ampliar o poder de estrela dos cientistas por meio de podcasts megamainstream como os de Dwarkesh ou Lex
  • Em perguntas sobre a incerteza econômica causada pela IA, temas além de AGI e debates morais sobre o comportamento dos modelos, os cientistas chineses refletiam características de um sistema em que opiniões sobre debate e estrutura social não são incentivadas

O clima em Pequim e no ecossistema chinês de IA

  • Pequim parece muito com a Bay Area, com laboratórios concorrentes localizados a distância de caminhada ou em trajetos curtos
    • Em 36 horas, foram visitados Z.ai, Moonshot AI, Universidade Tsinghua, Meituan, Xiaomi e 01.ai
    • É fácil se locomover com Didi, e na China os veículos XL frequentemente são minivans elétricas com cadeiras de massagem
  • A disputa por talentos entre pesquisadores é muito parecida com a dos EUA: trocar de laboratório é comum, e o critério de escolha costuma ser o lugar com o melhor clima naquele momento
  • A comunidade chinesa de LLMs parece mais um ecossistema do que um conjunto de tribos rivais
    • Todos os laboratórios chineses observam com cautela a ByteDance, dona do popular modelo Doubao
    • A ByteDance é o único laboratório chinês de fronteira que é fechado
    • Todos os laboratórios respeitam a DeepSeek como a liderança técnica com melhor faro de pesquisa na execução
    • Isso contrasta com os EUA, onde encontros informais entre membros de laboratórios rapidamente fazem sair faísca
  • Um dos aspectos mais impressionantes da humildade dos pesquisadores chineses é a indiferença em relação ao lado dos negócios, tratada como “não é problema meu
    • Nos EUA, todo mundo parece obcecado por tendências industriais em nível de ecossistema, como vendedores de dados, compute e captação de recursos

Diferenças e semelhanças da indústria chinesa de IA

  • Hoje, construir modelos de IA deixou de ser apenas um resultado de engenharia de grandes pesquisadores e se tornou uma atividade composta por construção, implantação, financiamento e adoção
  • Seis diferenças principais em relação ao ecossistema ocidental:
  • 1. Sinais iniciais da demanda doméstica por IA

    • Existe a hipótese de que as empresas chinesas não pagam por software e, por isso, não surgirá um grande mercado de inferência
    • Isso só é historicamente verdadeiro no caso do ecossistema de SaaS, que sempre foi muito pequeno na China; ainda assim, o país mantém um grande mercado de nuvem
    • A principal pergunta em aberto é: o gasto corporativo com IA vai seguir o mercado de SaaS (pequeno) ou o mercado de nuvem (fundamental)?
    • No geral, a IA parece seguir uma trajetória mais próxima da nuvem, e ninguém parecia particularmente preocupado com o crescimento do mercado em torno dessas novas ferramentas
  • 2. A maioria dos desenvolvedores usa Claude

    • A maior parte dos desenvolvedores de IA na China é fã do Claude e se concentra em como ele mudou a forma de construir software
    • Isso acontece mesmo com o Claude estando nominalmente proibido na China
    • Alguns pesquisadores mencionaram usar ferramentas próprias, como Kimi ou GLM CLI, mas todos mencionavam o uso de Claude
    • Houve surpreendentemente pouca menção ao Codex, que vem ganhando popularidade rapidamente na Bay Area
    • Mesmo que a China historicamente tenha sido relutante em comprar software, isso não passa a impressão de que não haverá um grande salto na demanda por inferência
  • 3. Senso de propriedade tecnológica

    • A cultura chinesa, combinada com um motor econômico muito ativo, produz resultados imprevisíveis
    • Muitos modelos de IA refletem não um plano mestre, mas o equilíbrio pragmático e imediato de várias empresas de tecnologia
    • A indústria respeita ByteDance e Alibaba como incumbentes que provavelmente vencerão a maior parte dos mercados graças aos seus recursos consideráveis
    • A DeepSeek é uma liderança técnica respeitada, mas ainda está distante de ser líder de mercado; define direção, mas não está estruturada para vencer economicamente
    • Para o Ocidente, pode soar surpreendente que empresas como Meituan (entrega) ou Ant Group estejam construindo modelos, mas a lógica é que os LLMs serão centrais para os produtos tecnológicos do futuro, então é preciso ter uma base forte
    • Ao fazer fine-tuning de modelos gerais, essas empresas podem reforçar sua stack com feedback da comunidade aberta e manter versões de fine-tuning interno para seus próprios produtos
    • A mentalidade “open first” se baseia em pragmatismo: obter feedback forte sobre o modelo, contribuir com a comunidade open source e fortalecer a missão
  • 4. O apoio do governo é real, mas o tamanho é incerto

    • Costuma-se afirmar que o governo chinês apoia ativamente a competição por LLMs abertos
    • Trata-se de um governo descentralizado em vários níveis, e não existe um playbook claro sobre o que exatamente cada nível faz
    • Distritos de Pequim competem entre si para atrair escritórios de empresas de tecnologia
    • A “ajuda” oferecida quase certamente inclui simplificação de procedimentos burocráticos, como licenças, mas não está claro até onde isso vai em atração de talentos ou até contrabando de chips
    • Durante a visita, houve várias menções a interesse ou ajuda do governo, mas os detalhes eram insuficientes demais para relatar isso de forma categórica
    • Não houve qualquer indício de que o alto escalão do governo chinês influencie decisões técnicas sobre os modelos
  • 5. A indústria de dados é muito menos desenvolvida

    • Como já se ouviu que Anthropic e OpenAI gastam mais de US$ 10 milhões em um único ambiente e centenas de milhões por ano para expandir a fronteira de RL, a intenção era verificar se laboratórios chineses compravam os mesmos ambientes de empresas americanas ou contavam com apoio do ecossistema local
    • Não é que a indústria de dados seja inexistente, mas sua qualidade é relativamente inferior, de modo que muitas vezes é melhor construir internamente os ambientes ou os dados
    • Pesquisadores investem muito tempo na construção direta de ambientes de treinamento de RL
    • Grandes empresas como ByteDance e Alibaba têm equipes internas de rotulagem de dados para sustentar isso
    • Tudo isso reflete a mentalidade de construir em vez de comprar mencionada anteriormente
  • 6. Demanda desesperada por chips da Nvidia

    • O compute da Nvidia é o padrão-ouro para treinamento, e todos os laboratórios têm seu avanço limitado pela falta dele
    • Se houver oferta, é certo que comprarão
    • Outros aceleradores, incluindo os da Huawei, recebem avaliações positivas para inferência, e muitos laboratórios têm acesso a chips da Huawei
  • Esses pontos mostram um ecossistema de IA muito diferente, no qual mapear rapidamente para a China a forma como laboratórios ocidentais operam pode gerar um erro de categoria
  • A pergunta central é se esses ecossistemas diferentes vão produzir tipos de modelo significativamente distintos, ou se os modelos chineses sempre serão descritos como versões de 3 a 9 meses antes dos modelos de fronteira americanos

Equilíbrio global

  • A China não é um lugar que possa ser descrito por regras ou receitas; trata-se de um ambiente com dinâmicas e química muito diferentes
    • Sua cultura é muito antiga e profunda, e está totalmente entrelaçada com a forma como a tecnologia doméstica é construída
  • A atual estrutura de poder dos EUA usa sua visão de mundo sobre a China como mecanismo central de decisão, mas a China possui qualidades e instintos muito difíceis de modelar com base na tomada de decisão ocidental
  • Mesmo perguntando diretamente por que esses laboratórios liberam seus melhores modelos em aberto, é difícil conectar o senso de propriedade com o apoio genuíno ao ecossistema
  • Quase todas as grandes empresas de tecnologia da China estão construindo seus próprios LLMs gerais
    • Meituan (entrega), Xiaomi (empresa ampla de tecnologia de consumo) e outras estão liberando modelos com pesos abertos
    • Empresas equivalentes nos EUA simplesmente comprariam o serviço
    • Essas empresas não estão construindo LLMs para seguir uma tendência do momento, mas por um desejo profundo e fundamental de controlar sua própria stack e desenvolver a tecnologia mais importante da era
  • A humanidade, o carisma e o calor genuíno dos pesquisadores chineses foram uma experiência muito humana
    • O discurso geopolítico frio que é comum nos EUA simplesmente não havia penetrado neles
  • Se o ecossistema aberto prosperar globalmente, será possível criar uma IA mais segura, acessível e útil, e a questão atual é se os laboratórios americanos vão tomar medidas para ocupar essa posição de liderança
  • Também circulam mais rumores sobre ordens executivas que afetariam modelos abertos, o que pode tornar ainda mais complexa a sinergia entre a liderança americana e o ecossistema global

2 comentários

 
jjw9512151 5 분 전

Às vezes me preocupo se essa obsessão excessiva e irracional com a China
não estaria criando o monstro dentro de nós.

Como quando um dos pretextos para a ascensão dos nazistas ao poder foi o anticomunismo.

 
kaydash 14 분 전

Uma única China...!