Comparativo de termos de ciência da computação entre coreano, chinês e japonês

(cjk-compsci-terms.netlify.app)

15 pontos por hongminhee 2021-10-09 | 13 comentários | Compartilhar no WhatsApp

Olá. Depois de criar uma conta no GeekNews, até agora eu vinha apenas lendo tudo com bastante interesse, mas como chegou o Dia do Hangeul, lembrei da tabela 《Comparativo de termos de ciência da computação entre coreano, chinês e japonês》 que fiz no começo deste ano e resolvi compartilhá-la no Show GN.

Isso acontece em qualquer área especializada, mas hoje em dia, por conveniência, em muitos casos os termos de ciência da computação não usam traduções já consolidadas há muito tempo, e o inglês é empregado diretamente como palavra estrangeira. Por exemplo, hoje em dia muita gente simplesmente fala e escreve “value” em vez de “valor”.

De todo modo, também há no coreano muitos bons termos traduzidos de ciência da computação que já estão consolidados há várias décadas. Descobri que uma parte considerável deles é compartilhada com o Japão e Taiwan, que fazem parte da mesma esfera cultural dos caracteres chineses, então fiz esta tabela comparativa por curiosidade e diversão. Como lembrança do Dia do Hangeul, acho que seria legal se vocês dessem uma olhada.

O código-fonte está em < https://github.com/dahlia/cjk-compsci-terms >. Como cada termo está organizado em arquivos YAML dentro do diretório tables/, de acordo com a classificação, PRs para adicionar termos ou corrigir erros também são bem-vindos.

Obrigado pela leitura!

13 comentários

dhsung 2021-10-10

Tenho uma dúvida.

Ao ver as grafias em chinês e japonês no YAML, confirmei que foi usada a notação em hanja utilizada na Coreia e, abaixo, em term, foram colocadas as grafias em chinês tradicional, simplificado e as abreviações japonesas.

Fiquei curioso sobre com que intenção isso foi desenvolvido.

Por exemplo, no caso de Source Code,

foi indicado que, na China continental (zh-CN), são usadas as formas em hanja coreano "源代碼" e "源程序",

mas, como em term a grafia simplificada está corretamente aplicada, isso me parece inconsistente.

Como referência, para Source Code,

na China continental usam-se principalmente 源代码, 源码 e 源程序.

Em Taiwan, usam-se 原始碼 e 原始程式碼.

Ouvi dizer que em Hong Kong usam 原始碼 e 源碼.

E, no caso de Computer,

na China continental, o termo oficial é "电子计算机" e, em muitos livros e documentos, a forma usada para Computer é "计算机",

mas, por influência de Taiwan e Hong Kong, as pessoas também usam bastante "电脑" de forma mista.

Referência 1: https://zh.wikipedia.org/wiki/…

Referência 2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5

Seção de CPU da JD.com: https://pcdiy.jd.com/

Seção de notebooks da JD.com: https://list.jd.com/list.html?cat=670,671,672

Por isso, parece que há muitos pontos a confirmar sobre se essa parte será conduzida com foco principal nas grafias oficiais do governo.

Como as grafias usadas no mundo chinês variam bastante e, dependendo de quem usa, a frequência também é diferente, parece haver muitos fatores a considerar.

hongminhee 2021-10-10

Agradeço muito pelo seu valioso comentário.

Antes de mais nada, se você verificar primeiro a página publicada na web, poderá confirmar que, entre os termos do chinês da China continental, não há itens exibidos com grafia em hanja no estilo coreano em vez de caracteres simplificados. Como, nos dados YAML, apenas o campo term é o que realmente aparece na tela, como você mencionou, somente no term cada forma foi escrita do modo usado em cada região (no caso do coreano, porém, em hanja de estilo coreano em vez de hangul).

Então, o que são as sequências em estilo do 《Dicionário Kangxi》 usadas mais acima? São apenas identificadores de grupo arbitrários para reunir, dentro dos dados, cognatos entre diferentes línguas (ou dialetos). Como são arbitrários, nem precisariam necessariamente ser caracteres chineses; poderiam ser apenas números ou hashes. No entanto, por exemplo, o japonês 「科学」 e o chinês de Taiwan 「科學」 devem aparecer conectados como um mesmo cognato, então precisam compartilhar o mesmo identificador de grupo. De forma semelhante, o coreano 「keompyuteo」 e o japonês 「コンピュータ」 também precisam ser agrupados sob o mesmo identificador de grupo.

Eu poderia simplesmente usar uma string arbitrária e sem significado como 「foobar」 como identificador, mas achei que, por conveniência, seria mais fácil de manter se o nome seguisse uma regra consistente e revelasse o conteúdo. Por isso, a regra mais intuitiva foi escrever os empréstimos do inglês em alfabeto romano e os vocábulos de origem sino-xênica em caracteres chineses. Porém, como também pode haver várias formas diferentes de grafia em caracteres chineses, foi necessário normalizar variantes populares e caracteres variantes (afinal, como se trata de um identificador de grupo, eles precisam ser reunidos em uma única forma), e nesse processo os caracteres simplificados da China e os shinjitai do Japão naturalmente deixaram de ser candidatos. Isso porque, com bastante frequência, caracteres diferentes foram fundidos com base em leituras iguais segundo o padrão de cada região, o que os torna inadequados para normalização (perda de informação classificatória). Assim, a escolha acabou se restringindo a algo entre o tradicional de Hong Kong, o tradicional de Taiwan, o hanja de estilo coreano e semelhantes; adotei como referência o estilo do 《Dicionário Kangxi》, que pode ser considerado desvinculado de implicações associadas a qualquer ortografia política existente.

O conteúdo acima já está descrito no arquivo CONTRIBUTING.md dentro do repositório. Há também outras partes explicadas ali, então talvez valha a pena consultar.

Entender de forma ampla quais palavras são mais usadas entre várias que os falantes empregam para indicar o mesmo significado — ou seja, a distribuição do vocabulário — exige custo e tempo demais para que uma pessoa sozinha, e nem sequer pesquisadora especializada, consiga investigar. Se houver estudos anteriores que tenham pesquisado a distribuição do uso de termos entre pessoas que trabalham com pesquisa em ciência da computação ou com desenvolvimento de software, eu também gostaria muito de aproveitá-los ativamente; mas, se não houver nada desse tipo, então eu realmente preciso muito da ajuda de vários participantes, especialmente de sugestões de falantes nativos de cada língua. Naturalmente, como até agora eu vinha pesquisando sozinho, não tive alternativa a não ser me basear principalmente na Wikipédia em chinês, no Baidu Baike e afins.

Quanto aos casos concretos que você mencionou, acho que seria possível refletir isso mais rapidamente se você enviasse um pull request.

Obrigado por ler um comentário tão longo.

dhsung 2021-10-10

Se você consultar o English-Chinese Glossary of IT Terms publicado pelo governo de Hong Kong, isso deve ajudar a organizar os termos usados em Hong Kong.

https://ogcio.gov.hk/en/our_work/…

alstjr7375 2021-10-09

Muito legal :D

kunggom 2021-10-09

Obrigado pela boa organização.

Se houver uma oportunidade depois, eu também gostaria de ver materiais sobre a terminologia de computação da Coreia do Norte. Não sei se o Centro de Informações sobre a Coreia do Norte do Ministério da Unificação teria materiais adequados.

dhsung 2021-10-10

Já existe no site do Ministério da Unificação.

Comparação de termos de TI entre Coreia do Sul e Coreia do Norte: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

hongminhee 2021-10-09

Se desmontarmos algo como o Red Star, a distribuição Linux da Coreia do Norte, talvez dê para encontrar algum material por lá. Acho que ela também incluía o 《Grande Dicionário da Língua Coreana》... Quando eu tiver tempo, vou tentar adicionar também o coreano da Coreia do Norte!

dhsung 2021-10-10

Comparação de termos de TI entre as Coreias do Norte e do Sul: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

Se fizermos scraping disso, acho que dá para adicionar rapidamente.

kunggom 2021-10-10

Olhando bem, eles estão fornecendo todo esse conteúdo em um arquivo no formato xls, então nem é necessário fazer scraping.

luavis 2021-10-09

Seria bom separar ko em ko-kr e ko-kp para incluir os termos de computação da Coreia do Norte.

hongminhee 2021-10-09

Eu achei que, se colocasse entre <> como no Markdown, os limites da URL seriam reconhecidos, mas não foi o caso. 😅 O link do repositório está aqui: https://github.com/dahlia/cjk-compsci-terms

xguru 2021-10-09

Preciso fazer o trabalho de suporte a Markdown, mas ainda não consegui T_T

Editei adicionando apenas espaços antes e depois para deixar a URL clicável.

Mas realmente é um Show que combina muito bem com o Dia do Hangeul. Vou ver com prazer!

hongminhee 2021-10-09

Obrigado por corrigir o texto também!

Comparativo de termos de ciência da computação entre coreano, chinês e japonês

Leituras relacionadas

13 comentários