- Há 20 anos, Joel enfatizou que “não existe Plain Text” e que é essencial entender codificação
- Unicode é o padrão que unifica todas as línguas humanas para que possam ser usadas em computadores
- Um sistema de code points que atribui um número único a cada caractere diferente
- O maior code point é
0x10FFFF, oferecendo espaço para cerca de 1,1 milhão de code points
- UTF-8 é a codificação mais comum, usada com 98% de probabilidade
- UTF-8 é uma codificação de tamanho variável, em que code points podem ser codificados como sequências de 1 a 4 bytes
- UTF-8 tem compatibilidade de bytes com ASCII e é eficiente em espaço para o latim básico
- UTF-8 tem recursos embutidos de detecção e recuperação de erros, permitindo identificar sequências de bytes UTF-8 completas e válidas
- Clusters de grafemas estendidos, ou grafemas, são a unidade que deve ser iterada, e não os code points
- Unicode é atualizado todos os anos, e as regras que definem clusters de grafemas mudam anualmente
- Unicode pode ser renderizado de forma diferente dependendo da localidade
- Pares substitutos em Unicode são duas unidades UTF-16 usadas para codificar um único code point Unicode
- UTF-16 ainda é usado em alguns sistemas como representação em memória
- Strings Unicode devem ser normalizadas antes de serem comparadas
- O artigo reforça a importância de usar bibliotecas Unicode até mesmo para operações básicas como
strlen, indexOf e substring
3 comentários
No caso de
"♂️".length, o Python 3.11 retorna 1.O emoji está aparecendo quebrado nos comentários.
Comentários do Hacker News