NVIDIA Nemotron-Personas-Korea - conjunto de dados sintético com 1 milhão de personas baseado na distribuição populacional real da Coreia do Sul
(huggingface.co)- Primeiro grande conjunto de dados de personas em coreano a refletir a distribuição real de demografia, geografia e traços de personalidade com base em dados públicos da Statistics Korea, da Suprema Corte da Coreia e do Serviço Nacional de Seguro de Saúde, entre outros
- Inclui 7 milhões de personas em 1 milhão de registros, compostos por 26 campos como nome, gênero, idade, estado civil, nível de escolaridade, ocupação e região de residência
- Produzido com o NeMo Data Designer, um sistema de geração de dados sintéticos de nível corporativo, e o modelo google/gemma-4-31B-it
- Em comparação com conjuntos de dados de personas existentes, reflete com mais fidelidade idosos, áreas rurais e distribuições variadas de escolaridade e ocupação, contribuindo para a redução de vieses em modelos de IA soberana
- Licenciado em CC BY 4.0, podendo ser usado livremente para fins comerciais e não comerciais
Problemas das personas coreanas geradas por LLMs existentes
- Persona é uma descrição das características, interesses, personalidade e profissão próprias de um indivíduo, e um conjunto de dados de personas deve refletir corretamente as características culturais e distributivas do grupo em questão
- Mesmo quando se dá a um LLM estrangeiro um prompt como “gere perfis de personagens realistas e diversos da sociedade coreana”, o resultado fica seriamente distorcido
- 40% das personas geradas escolhem salada como comida favorita, ou produzem resultados pouco realistas como “administro um pomar de maçãs em Andong, Gyeongsangbuk-do”
- Ao amostrar aleatoriamente 2 mil personas coreanas com o Claude Opus 4.7, foi identificado um viés extremo na distribuição ocupacional: 77,6% foram geradas como “agricultor de cultivo de yuzu”
- No caso do GPT-5.4, 90,1% foram geradas como “cuidador de idosos”
- Há vieses incompatíveis com a realidade coreana em todos os aspectos, como distribuição urbana, estrutura familiar, tipo de ocupação da moradia e preferências alimentares
Visão geral e objetivo do conjunto de dados
- Conjunto de dados sintético e open source de personas projetado para refletir amplamente a diversidade e as características da população da Coreia do Sul
- Escrito em coreano para que qualquer pessoa possa ler com facilidade
- O principal objetivo é mitigar dados ausentes e vieses potenciais nos dados de treinamento ao construir sistemas de IA soberana
- O foco está em corrigir vieses dos conjuntos de dados de personas usados na geração de dados sintéticos, especialmente nos eixos de idade, região, escolaridade e ocupação
Fontes de dados e método de produção
- Uso de dados censitários do KOSIS (Portal Nacional de Estatísticas da Statistics Korea) relacionados a gênero, região, setor, ocupação, viagens e lazer
- Uso de dados da Suprema Corte sobre ano de nascimento, gênero e nomes, além de informações de exames de saúde do Serviço Nacional de Seguro de Saúde e resultados da pesquisa de comportamento de consumo de alimentos do Instituto Coreano de Economia Rural
- A NAVER Cloud forneceu dados iniciais e conhecimento especializado de domínio na fase de projeto
- Uso de um modelo gráfico probabilístico (PGM) próprio, do modelo google/gemma-4-31B-it licenciado em Apache-2.0 e dos métodos de validação e avaliação do NeMo Data Designer
- Abrange nome, idade, gênero, região, estado civil, família, moradia, escolaridade, área de formação, atividade econômica, renda, setor, ocupação, pressão arterial, glicemia, circunferência da cintura, BMI, viagens, lazer, tipo de restaurante preferido, frequência de delivery e de alimentação fora de casa, entre outros
- Todos os dados refletem distribuições reais, mas foram inteiramente sintetizados artificialmente, e qualquer semelhança com pessoas reais é coincidência
Escala e composição do conjunto de dados
- Total de 1 milhão de registros compostos por 1,7 bilhão de tokens (1 bilhão de tokens de personas)
- 26 campos: 7 campos de persona, 6 campos de atributos de persona, 12 campos de contexto demográfico e geográfico e 1 identificador único
- Cobertura administrativa abrangente de 17 cidades/províncias e 252 cidades/condados/distritos
- Mais de 209 mil combinações únicas de nomes completos (118 sobrenomes, 21.400 nomes próprios)
- 7 tipos de persona: ocupação, esportes, arte, viagem, comida, família e resumo
- Atributos adicionais de persona: contexto cultural, tecnologia e expertise, objetivos e aspirações de carreira, hobbies e interesses
Distribuição de nomes
- Os dados de nomes atualmente disponíveis publicamente na Coreia do Sul são limitados ao período posterior a 2008
- O Nemotron-Personas-Korea é o primeiro conjunto de dados público baseado em dados completos de nomes da Coreia do Sul desde 1940
- Resolve problemas de atribuição de nomes incompatíveis com a época, como “Kim Ha-yul, 82 anos?” ou “Kim Sun-ja, 21 anos?”
- Na distribuição de sobrenomes, os cinco principais — Kim (21,5%), Lee (14,7%), Park (8,5%), Jeong (4,8%) e Choi (4,7%) — representam cerca de 54% do total
- Os nomes refletem tendências geracionais de nomeação conforme gênero e ano de nascimento
- Mulheres: coexistem nomes de gerações mais velhas como Yeong-suk, Jeong-suk e Sun-ja, e nomes de gerações mais jovens como Ji-young, Yu-jin e Ji-hyeon
- Homens: nomes modernos como Ji-hoon, Hyeon-woo e Jun-ho ocupam as primeiras posições
- O nome completo mais frequente é Kim Yeong-suk, em linha com levantamentos reais
Distribuição etária
- Tem uma estrutura em formato de jarro, mais espessa no meio, refletindo fielmente a estrutura populacional atual de baixa natalidade e envelhecimento simultâneos
- A faixa mais espessa é a de 50 a 64 anos (proporção de cerca de 0,09), correspondente à geração do baby boom das décadas de 1960 e 1970
- Entre idosos com 70 anos ou mais, a proporção de mulheres é claramente maior que a de homens
- Na faixa de 80 a 89 anos, a proporção de mulheres é cerca de 1,52 vez a dos homens
Distribuição do estado civil
- A proporção de solteiros é de mais de 95% entre 19 e 24 anos, caindo de 55% para 31% na faixa dos 30 anos, em linha com a tendência de casamento tardio e idade média do primeiro casamento entre 31 e 33 anos
- A proporção de casados sobe para 64% a partir dos 35 anos, atingindo pico de 78% no fim dos 50 anos
- A viuvez cresce rapidamente a partir dos 60 anos, chegando a 66% no fim dos 80 e a 74~81% nos 90 anos
- O divórcio é mais alto no fim dos 50 e início dos 60, em cerca de 12%, condizendo com a tendência de “divórcio grisalho”
Distribuição dos tipos de domicílio
- Em todas as faixas etárias, os domicílios de casal + filhos solteiros têm a maior proporção, com pico de 63,6% aos 19 anos
- Após os 50 anos, os domicílios de casal sem filhos crescem rapidamente, com pico de 45,7% entre 65 e 69 anos
- Os domicílios unipessoais mostram um padrão de dois picos: início dos 20 anos (15~22%) e após os 75 anos (21~32%)
- Domicílios de mãe + filhos solteiros (5~14%) aparecem mais do que os de pai + filhos solteiros (2~5%), confirmando a assimetria de gênero em famílias monoparentais
Distribuição do nível de escolaridade
- Entre os jovens de 20 a 34 anos, a proporção de graduados em universidades de 4 anos supera 50%; incluindo faculdades de ciclo curto, cerca de 75% têm ensino superior ou mais
- Entre pessoas com 80 anos ou mais, sem escolaridade (36%) e ensino fundamental (37%) somam 73% do total
- Por região, Sejong (49,0%), Seul (45,1%) e Daejeon (39,7%) têm as maiores proporções de bacharelado ou nível superior
- Em Sejong, isso reflete o influxo de servidores públicos e pesquisadores altamente escolarizados após a transferência do complexo administrativo do governo
Distribuição ocupacional
- Profissionais especializados e trabalhadores administrativos representam a maior fatia, refletindo uma estrutura econômica baseada em serviços e conhecimento
- Entre os empregos de vendas, o vendedor de lojas online aparece em 1º lugar (19,8%), confirmando o alto peso do comércio eletrônico
- Em trabalho braçal simples, há concentração em vigias de edifícios (21,3%) e faxineiros de edifícios (16,0%)
- Militares representam cerca de 1% do total de empregados, e o Exército responde por mais de dois terços
Restrições técnicas e limitações
- Devido a limitações realistas de disponibilidade e atualidade dos dados públicos e do modelo PGM, foi aplicada uma hipótese de independência entre certas variáveis
- Ex.: ao atribuir ocupações detalhadas, assume-se que gênero, renda, escolaridade e área de formação influenciam de forma independente, sem considerar interações
- Estatísticas abrangentes sobre gênero (gender) não existem nos dados públicos domésticos e, por isso, não foram incorporadas
- Inclui apenas personas adultas com 19 anos ou mais
- Personas relacionadas a clientes corporativos em áreas como finanças e saúde foram excluídas
Melhorias em relação à abordagem dependente de LLM
- Quando se depende apenas de LLMs, a distribuição urbana ficava concentrada em cidades como Suncheon e Changwon; já o Nemotron-Personas-Korea reflete a distribuição proporcional real da população em locais como Hwaseong, Namyangju e Songpa-gu, em Seul
- As estruturas familiares foram ampliadas de um cenário centrado apenas em domicílios unipessoais para formas diversas, como morar com cônjuge, com cônjuge e filhos ou com os pais
- A forma de ocupação da moradia também saiu de 100% casa própria para refletir a proporção real entre imóvel próprio e aluguel
- A distribuição de alimentos também deixou de ser dominada por salada e passou a refletir a cultura alimentar real, com bibimbap, culinária japonesa, frango, galbi, samgyeopsal, tteokbokki, bunsik, pão, doenjang-jjigae e jajangmyeon
Exemplos de reflexo cultural
- “Jeong Jun, 33 anos, da geração canguru, que alivia o cansaço do dia com samgyeopsal e soju junto dos colegas no caminho de volta do trabalho” — mora em Songpa-gu, Seul; formou-se em universidade de 4 anos; solteiro; mora com os pais; refletindo o fenômeno da geração canguru na sociedade coreana
- “Kim Chun-hui, 73 anos, de Ulsan, que gosta de músicas da Sim Soo-bong e de postar fotos no chat em grupo da família” — mulher, sem escolaridade, casada, sem trabalho; refletindo a população feminina idosa
Por que conjuntos de dados de personas ajudam LLMs
- Cada pessoa possui um conhecimento próprio, e a persona é um fenótipo que condensa esse conhecimento individual
- Ex.: uma persona de eletricista pode servir como meio para extrair de um LLM conhecimentos relacionados à área elétrica
- Em dados sintéticos, a diversidade é um indicador extremamente importante, e as pessoas são a melhor fonte dessa diversidade
- É possível gerar diversos dados sintéticos de treinamento por persona no formato “crie um problema de raciocínio lógico relacionado à {persona dada}”
Casos reais de uso
- Melhoria geral no desempenho de uso de ferramentas: o conjunto de ferramentas e a persona são fornecidos juntos ao usuário-LLM para síntese de dados e treinamento. O Nemotron-Nano-9B-v2-Japanese adotou essa metodologia e alcançou o 1º lugar no leaderboard Nejumi. Método semelhante também foi introduzido no Nemotron Nano v3 e no Super v3
- Melhoria da segurança do modelo: usado como dado seed do conjunto Sensitive-safety-category-refusals (SSCR). O conjunto SSCR está incluído em nemotron-safety-blend
Como usar e licença
- Pode ser carregado com a biblioteca Python
datasetschamandoload_dataset("nvidia/Nemotron-Personas-Korea") - Licenciado em CC BY 4.0, com uso livre para fins comerciais e não comerciais
- Também é fornecida separadamente uma versão expandida para uso direto no NeMo Data Designer
10 comentários
Eu já estava pensando em postar isso no GeekNews uma vez também..
https://manyperson.com/
Estou criando um serviço de personas relacionado. Da mesma forma, usei dados do MDIS e, no meu caso, utilizei o Gemini.
Show GN: ManyPerson - simulador coreano de opinião pública de personas de IA baseado no MDIS do Statistics Korea
Obrigado pelo material.
Obrigado pelo ótimo material. Então é assim que essas personas são construídas.
Muito útil!
https://github.com/civilian7/korean-people-persona
Por necessidade pessoal,
criei e publiquei um programa em Python que converte os dados públicos para sqlite3
e um exemplo de servidor MCP.
Parece que, até bem recentemente, a taxa de ingresso de pessoas na faixa dos 20 anos em universidades de 4 anos não chegava a 50%, mas agora pelo visto passou disso.
Há muitas estatísticas interessantes.
Consultei os materiais de apresentação desse conjunto de dados para complementar a explicação.
Nemotron-Personas-Korea, apresentamos o primeiro conjunto de dados de personas do nosso país! - LinkedIn
Nemotron-Personas-Korea : o primeiro conjunto de dados de personas do nosso país - link para o PDF
As personas parecem realistas demais em comparação com as que os LLMs estrangeiros criam.
"O sr. Park Ho-cheol é um consultor veterano do centro de seguros de Wonju, que usa um headset e atende em silêncio dezenas de reclamações agressivas por dia, enquanto explica cláusulas complexas de seguro de um jeito simples, como se fosse o vizinho ao lado.
"Passou décadas entre a paisagem tranquila às margens do rio Imjin, em Paju, e, logo após se formar no ensino médio, entrou direto no trabalho de campo com encanamento, adquirindo na prática uma profunda sabedoria de vida. Recentemente, também acompanha no smartphone análises dos eletrodomésticos mais recentes e vídeos sobre o que acontece no mundo, mantendo-se atento a novas informações."