Codex

< Cores por nome e número | Índice | Tabela ASCII >

Codificação de caracteres no HTML

O character set ou charset ou ainda character encoding é no português a codificação de caracteres, que nada mais é do que o padrão de relacionamento entre um conjunto de caracteres com outra coisa.

Essas coisas, podem ser pulsos elétricos, números, pares de caracteres e outros, e também para diferentes propósitos, como por exemplo, amostragem e a armazenagem.

Os browsers precisam saber em qual codificação a página foi escrita para poder mostrá-la para o usuário final.

A codficação usada no início da web era o ASCII.O ASCII têm números de 0-9, "A" ao "Z, tanto maiúsculas como minúsculas e alguns caracteres especiais.

Veja a codificação de caracteres ASCII completa.

Como muitos países usam caracteres que não são parte da codificação ASCII, o padrão para as linguagens ocidentais e browsers modernos se tornou o ISO-8859-1.

Veja a codificação completa do ISO-8859-1.

Se uma página usa um charset diferente do ISO-8859-1, isto deve ser especificado no documento html através de tag <meta>.


Codificação de caracteres ISO

ISO significa International Standards Organization, ou Organização Internacional de padrões , no português. Eles definem as codificações padrão para diferentes linguagens e alfabetos.

Algumas das codificações usadas no mundo estão listadas abaixo:

Codificação Descrição Cobertura
ISO-8859-1 Alfabeto Latino parte 1 América do norte, Oeste Europeu, América Latina, Caribe, Canadá e África
ISO-8859-2 Alfabeto Latino parte 2 Leste Europeu
ISO-8859-3 Alfabeto Latino parte 3 Sudeste Europeu, Esperanto, e outros
ISO-8859-4 Lfabeto Latino parte 4 Scandinavia/Balcãs (e outros que não estão no ISO-8859-1)
ISO-8859-5 Alfabeto Latino/Cirílico parte 5 Linguagens que usam o alfabeto cirílico como Bulgaria, Bielorusia, Russia e Macedônia
ISO-8859-6 Alfabeto Latino/Arábico parte 6 Linguagens que usam o alfabeto Arábico
ISO-8859-7 Alfabeto Latino/Grego parte 7 A linguagem grega moderna assim como símbolos matemáticos derivados do grego
ISO-8859-8 Alfabeto Latino/Hebráico parte 8 Linguagens que usam o alfabeto hebráico
ISO-8859-9 Alfabeto Latino 5 parte 9 A linguagem Turca. O mesmo que ISO-8859-1 com a exceção que caracteres turcos substituem os da Islândia
ISO-8859-10 Alfabeto Latino 6 Sami, Nórdico, Eskimó As linguagens nórdicas
ISO-8859-15 Latin 9 (ou Latin 0) Similar ao ISO 8859-1 mas substitui alguns elementos menos comuns com o símbolo do Euro e outros caracteres.
ISO-2022-JP Latin/Japonês parte 1 A linguagem Japonesa
ISO-2022-JP-2 Latin/Japonês part 2 A linguagem Japonesa
ISO-2022-KR Latin/Coreano parte 1 A linguagem Coreana

O padrão Unicode

Pelas limitações de tamanho e de uso em ambientes multilinguais, O Unicode Consortium desenvolveu o padrão unicode.

O padrão unicode cobre todos os caracteres, pontuações e símbolos do mundo.

O Unicode habilita o processamento, armazenamento e intercâmbio de dados de texto independentemente de plataforma, programa ou linguagem.


O Consórcio Unicode

O consórcio Unicode desenvolve o padrão Unicode. Seu objetivo é substituir as codificações atuais pelo padrão Unicode Transformation Format ou simplesmente (UTF).

O padrão unicode se tornou um sucesso e foi implementado em XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc. O padrão unicode também suportado em muitos sistemas operacionais e todos os browsers modernos.

O consórcio Unicode coopera com organizações desenvolvedoras de padrões de liderança como a ISO, W3C, e ECMA.

Unicode pode ser implementado por codificações diferentes. As codificações mais comuns são o UTF-8 and UTF-16:

Codificação Descrição
UTF-8 Um caractere no UTF8 pode ter de 1 a 4 bytes. UTF-8 pode representar qualquer caractere dentro do padrão Unicode. UTF-8 retroativamente compatível com o ASCII. UTF-8 é a codificação preferida para confecção de e-mails e páginas web.
UTF-16 16-bit UTF é uma codificação de comprimento variável, e capaz de representar todo o repertório de caracteres do Unicode. UTF-16 é usado nos principais sistemas operacionais como Microsoft Windows 2000/XP/2003/Vista/CE e em linguagens como Java e .NET .

Dica: Os primeiros 256 caracteres do Unicode correspondem aos 256 caracteres da codificação ISO-8859-1.

Dica: Todos os processadores HTML 4 possuem suporte para o UTF-8, e todos os processadores de XHTML e XML usam o UTF-8 e UTF-16.

< Cores por nome e número | Índice | Tabela ASCII >