74 pontos por GN⁺ 14 일 전 | 10 comentários | Compartilhar no WhatsApp
  • Primeiro grande conjunto de dados de personas em coreano a refletir distribuições reais de demografia, geografia e personalidade com base em dados públicos da Statistics Korea, Suprema Corte da Coreia e Serviço Nacional de Seguro de Saúde, entre outros
  • Inclui 7 milhões de personas em 1 milhão de registros, compostos por 26 campos como nome, gênero, idade, estado civil, nível educacional, profissão e região de residência
  • Produzido com o NeMo Data Designer, sistema de geração de dados sintéticos de nível corporativo, e o modelo google/gemma-4-31B-it
  • Em comparação com conjuntos de personas existentes, reflete com mais fidelidade idosos, áreas rurais e diversas distribuições de escolaridade e ocupação, contribuindo para a redução de vieses em modelos de IA soberana
  • Pode ser usado livremente para fins comerciais e não comerciais sob licença CC BY 4.0

Problemas das personas coreanas geradas por LLMs existentes

  • Persona é a descrição de características, interesses, personalidade e profissão de um indivíduo, e um conjunto de dados de personas deve refletir corretamente as características culturais e de distribuição do grupo em questão
  • Mesmo ao instruir um LLM estrangeiro com algo como “gere perfis de pessoas realistas e diversos da sociedade coreana”, o resultado fica seriamente distorcido
    • Em personas geradas, 40% escolhem salada como comida favorita, ou surgem resultados irreais como “administro um pomar de maçãs em Andong, Gyeongsangbuk-do”
  • Ao amostrar aleatoriamente 2 mil personas coreanas com o Claude Opus 4.7, foi identificado um viés extremo na distribuição ocupacional: 77,6% eram “agricultores de cultivo de yuja”
  • No caso do GPT-5.4, 90,1% foram gerados como “cuidadores de idosos”
  • vieses incompatíveis com a realidade coreana em todos os aspectos, como distribuição urbana, estrutura familiar, forma de ocupação da moradia e preferências alimentares

Visão geral e objetivo do conjunto de dados

  • Conjunto de dados sintético open source de personas projetado para refletir amplamente a diversidade e as características da população da Coreia do Sul
  • Escrito em coreano, para que qualquer pessoa possa ler com facilidade
  • O principal objetivo é reduzir dados ausentes e vieses potenciais nos dados de treinamento ao construir sistemas de IA soberana
  • O foco está em corrigir os vieses dos conjuntos de personas usados na geração de dados sintéticos, especialmente nos eixos de idade, região, escolaridade e ocupação

Fontes de dados e método de produção

  • Uso de dados censitários do KOSIS (Portal Nacional de Estatísticas da Statistics Korea) relacionados a gênero, região, indústria, ocupação, viagens e lazer
  • Uso de dados da Suprema Corte sobre ano de nascimento, gênero e nomes, além de informações de exames de saúde do Serviço Nacional de Seguro de Saúde e resultados da pesquisa de comportamento de consumo alimentar do Korea Rural Economic Institute
  • A NAVER Cloud forneceu dados iniciais e conhecimento especializado de domínio na fase de projeto
  • Uso de um modelo gráfico probabilístico (PGM) próprio, do modelo google/gemma-4-31B-it sob licença Apache-2.0 e dos métodos de validação e avaliação do NeMo Data Designer
  • Abrange nome, idade, gênero, região, casamento, família, moradia, escolaridade, área de formação, atividade econômica, renda, setor, grupo ocupacional, pressão arterial, glicemia, circunferência da cintura, BMI, viagens, lazer, tipos de restaurantes preferidos e frequência de delivery e refeições fora de casa
  • Todos os dados refletem distribuições reais, mas foram inteiramente sintetizados artificialmente; qualquer semelhança com pessoas reais é coincidência

Escala e composição do conjunto de dados

  • 1 milhão de registros compostos por um total de 1,7 bilhão de tokens (1 bilhão de tokens de personas)
  • 26 campos: 7 campos de persona, 6 campos de atributos de persona, 12 campos de contexto demográfico e geográfico e 1 identificador único
  • Cobertura administrativa abrangente de 17 cidades e províncias e 252 cidades, condados e distritos
  • Mais de 209 mil combinações únicas de nomes completos (118 sobrenomes e 21.400 nomes)
  • 7 tipos de persona: ocupação, esportes, arte, viagem, comida, família e resumo
  • Atributos adicionais de persona: contexto cultural, habilidades e especialização, objetivos e aspirações de carreira, hobbies e interesses

Distribuição de nomes

  • Atualmente, os dados públicos de nomes no país estão limitados ao período posterior a 2008
  • O Nemotron-Personas-Korea é o primeiro conjunto de dados público baseado em dados completos de nomes da Coreia do Sul desde 1940
  • Resolve problemas de atribuição de nomes incompatíveis com a época, como “Kim Hayul, 82 anos?” ou “Kim Sunja, 21 anos?”
  • Na distribuição de sobrenomes, os cinco principais — Kim (21,5%), Lee (14,7%), Park (8,5%), Jeong (4,8%) e Choi (4,7%) — representam cerca de 54% do total
  • Os nomes refletem tendências geracionais de nomeação de acordo com gênero e ano de nascimento
    • Mulheres: coexistem nomes de gerações mais velhas, como Yeongsuk, Jeongsuk e Sunja, e nomes de gerações mais jovens, como Jiyoung, Yujin e Jihyeon
    • Homens: nomes modernos como Jihoon, Hyunwoo e Junho aparecem entre os mais frequentes
  • O nome completo mais frequente é Kim Youngsuk, em linha com pesquisas reais

Distribuição etária

  • Apresenta uma estrutura em formato de barril, refletindo fielmente a atual estrutura populacional marcada simultaneamente por baixa natalidade e envelhecimento
  • A faixa mais volumosa é a de 50 a 64 anos (proporção de cerca de 0,09), correspondente à geração do baby boom das décadas de 1960 e 1970
  • Entre os grupos com mais de 70 anos, a proporção de mulheres é claramente maior que a de homens
    • Na faixa de 80 a 89 anos, a proporção feminina é cerca de 1,52 vez a masculina

Distribuição do estado civil

  • A taxa de solteiros é de mais de 95% entre 19 e 24 anos, e cai de 55% para 31% nos 30 anos, em linha com a tendência de casamento tardio, com idade média no primeiro casamento entre 31 e 33 anos
  • A proporção de casados sobe para 64% a partir dos 35 anos e atinge o pico de 78% no fim dos 50 anos
  • A viuvez aumenta rapidamente a partir dos 60 anos, chegando a 66% no fim dos 80 anos e a 74–81% nos 90 anos
  • O divórcio é mais alto entre os 50 anos e o início dos 60, em torno de 12%, alinhado à tendência de “divórcio grisalho”

Distribuição dos tipos de domicílio

  • Em todas as faixas etárias, os domicílios de casal + filhos solteiros têm a maior participação, com pico de 63,6% aos 19 anos
  • Após os 50 anos, os domicílios de casal sem filhos aumentam rapidamente, atingindo pico de 45,7% entre 65 e 69 anos
  • Os domicílios unipessoais mostram um padrão de dois picos: no início dos 20 anos (15–22%) e após os 75 anos (21–32%)
  • Domicílios de mãe + filhos solteiros (5–14%) são mais frequentes do que os de pai + filhos solteiros (2–5%), confirmando uma assimetria de gênero nas famílias monoparentais

Distribuição do nível educacional

  • Entre os jovens de 20 a 34 anos, a taxa de formados em cursos universitários de 4 anos ultrapassa 50%; incluindo faculdades de ciclo curto, cerca de 75% têm ensino superior ou mais
  • Entre pessoas com mais de 80 anos, sem escolaridade (36%) e ensino fundamental (37%) somam 73% do total
  • Por região, as maiores proporções de bacharelado ou superior aparecem em Sejong (49,0%), Seul (45,1%) e Daejeon (39,7%)
    • Em Sejong, isso reflete a migração de servidores públicos e pesquisadores com alta escolaridade após a transferência do complexo governamental de Sejong

Distribuição das ocupações

  • Profissionais especializados e cargos administrativos têm a maior participação, refletindo uma estrutura econômica baseada em serviços e conhecimento
  • Entre as ocupações de vendas, vendedor de comércio eletrônico aparece em 1º lugar (19,8%), confirmando o alto peso do e-commerce
  • Entre os trabalhos manuais simples, há concentração em porteiros de edifícios (21,3%) e faxineiros de edifícios (16,0%)
  • Militares representam cerca de 1% do total de trabalhadores, sendo que o Exército responde por mais de dois terços

Restrições técnicas e limitações

  • Devido a restrições realistas de disponibilidade e atualidade dos dados públicos, além do modelo PGM, foi aplicada uma suposição de independência entre certas variáveis
    • Ex.: ao atribuir ocupações detalhadas, assume-se que gênero, renda, escolaridade e área de formação influenciam de forma independente, sem considerar interações
  • Estatísticas abrangentes sobre gênero (gender) não existem nos dados públicos coreanos, por isso esse aspecto não foi incluído
  • Inclui apenas personas adultas com 19 anos ou mais
  • Personas relacionadas a clientes corporativos em áreas como finanças e saúde foram excluídas

Melhorias em relação à abordagem dependente de LLM

  • Quando se depende apenas de LLMs, a distribuição urbana ficava concentrada em cidades como Suncheon e Changwon, enquanto o Nemotron-Personas-Korea reflete distribuições proporcionais à população real em lugares como Hwaseong, Namyangju e Songpa-gu, em Seul
  • A estrutura familiar foi expandida de um foco quase exclusivo em domicílios unipessoais para formas diversas, como convivência com cônjuge, cônjuge + filhos e convivência com os pais
  • A forma de ocupação da moradia também passou de 100% casa própria para refletir as proporções reais entre propriedade e aluguel
  • A distribuição alimentar saiu de um foco quase exclusivo em salada para refletir a cultura alimentar real, com bibimbap, culinária japonesa, frango, galbi, samgyeopsal, tteokbokki, bunsik, pão, doenjang-jjigae e jajangmyeon

Exemplos de reflexão cultural

  • “Jeong Jun, 33 anos, da geração canguru, que relaxa do cansaço do dia com samgyeopsal e soju com os colegas no caminho de volta do trabalho” — morador de Songpa-gu, em Seul, com graduação universitária de 4 anos, solteiro e morando com os pais, refletindo o fenômeno da geração canguru na sociedade coreana
  • “Kim Chunhui, 73 anos, de Ulsan, que gosta de músicas de Sim Soobong e de postar fotos no chat em grupo da família” — mulher, sem escolaridade, casada e sem ocupação, refletindo a população feminina idosa

Por que conjuntos de dados de personas ajudam LLMs

  • Cada pessoa possui conhecimento próprio, e a persona é um fenótipo que condensa esse conhecimento singular
    • Ex.: a persona de um eletricista pode servir como meio para extrair conhecimento sobre eletricidade de um LLM
  • Em dados sintéticos, a diversidade é um indicador extremamente importante, e as pessoas são justamente uma das melhores fontes de diversidade
  • É possível gerar diversos dados sintéticos de treino por persona em formatos como “crie um problema de raciocínio lógico relacionado à {persona fornecida}”

Casos de uso reais

  • Melhoria no desempenho geral de uso de ferramentas: conjunto de ferramentas e persona são fornecidos juntos ao usuário-LLM para síntese de dados e treinamento. O Nemotron-Nano-9B-v2-Japanese adotou essa metodologia e alcançou o 1º lugar no leaderboard Nejumi. Métodos semelhantes também foram introduzidos no Nemotron Nano v3 e no Super v3
  • Melhoria na segurança do modelo: usado como dado semente do conjunto Sensitive-safety-category-refusals (SSCR). O conjunto SSCR está incluído no nemotron-safety-blend

Como usar e licença

  • Pode ser carregado com a biblioteca Python datasets chamando load_dataset("nvidia/Nemotron-Personas-Korea")
  • Sob licença CC BY 4.0, pode ser usado livremente para fins comerciais e não comerciais
  • Também é fornecida separadamente uma versão estendida para uso direto no NeMo Data Designer

10 comentários

 
calmlake79 14 일 전

Eu já estava pensando em postar isso no GeekNews uma vez também..

https://manyperson.com/

Estou criando um serviço de personas relacionado. Da mesma forma, usei dados do MDIS e, no meu caso, utilizei o Gemini.

 
recast7838 13 일 전

Obrigado pelo material.

 
rlaaudgjs5638 13 일 전

Obrigado pelo ótimo material. Então é assim que essas personas são construídas.

 
dongho42 14 일 전

Muito útil!

 
civilian 14 일 전

https://github.com/civilian7/korean-people-persona

Por necessidade pessoal,
criei e publiquei um programa em Python que converte os dados públicos para sqlite3
e um exemplo de servidor MCP.

 
nvkzrx 14 일 전

Parece que, até bem recentemente, a taxa de ingresso de pessoas na faixa dos 20 anos em universidades de 4 anos não chegava a 50%, mas agora pelo visto passou disso.

 
nvkzrx 14 일 전

Há muitas estatísticas interessantes.

 
xguru 14 일 전

As personas parecem realistas demais em comparação com as que os LLMs estrangeiros criam.

"O sr. Park Ho-cheol é um consultor veterano do centro de seguros de Wonju, que usa um headset e atende em silêncio dezenas de reclamações agressivas por dia, enquanto explica cláusulas complexas de seguro de um jeito simples, como se fosse o vizinho ao lado.

"Passou décadas entre a paisagem tranquila às margens do rio Imjin, em Paju, e, logo após se formar no ensino médio, entrou direto no trabalho de campo com encanamento, adquirindo na prática uma profunda sabedoria de vida. Recentemente, também acompanha no smartphone análises dos eletrodomésticos mais recentes e vídeos sobre o que acontece no mundo, mantendo-se atento a novas informações."