Odniesienie HTML Unicode (UTF-8)

Konsorcjum Unicode

Konsorcjum Unicode opracowuje standard Unicode. Ich celem jest zastąpienie istniejących zestawów znaków standardowym formatem transformacji Unicode (UTF).

Standard Unicode odniósł sukces i jest zaimplementowany w HTML, XML, Java, JavaScript, E-mail, ASP, PHP itp. Standard Unicode jest również obsługiwany w wielu systemach operacyjnych i we wszystkich nowoczesnych przeglądarkach.

Konsorcjum Unicode współpracuje z wiodącymi organizacjami zajmującymi się opracowywaniem standardów, takimi jak ISO, W3C i ECMA.

Zestawy znaków Unicode

Unicode można zaimplementować za pomocą różnych zestawów znaków. Najczęściej używane kodowania to UTF-8 i UTF-16:

Character-set	Description
UTF-8	A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16	16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

Wskazówka: Pierwsze 128 znaków Unicode (które odpowiadają jeden do jednego za pomocą ASCII) są zakodowane przy użyciu pojedynczego oktetu o tej samej wartości binarnej co ASCII, dzięki czemu prawidłowy tekst ASCII jest również poprawny w kodowaniu UTF-8 w formacie Unicode.

HTML 4 obsługuje UTF-8. HTML 5 obsługuje zarówno UTF-8, jak i UTF-16!

Standard HTML5: Unicode UTF-8

Ponieważ zestawy znaków w ISO-8859 miały ograniczony rozmiar i nie były kompatybilne w środowiskach wielojęzycznych, Konsorcjum Unicode opracowało standard Unicode.

Standard Unicode obejmuje (prawie) wszystkie znaki, interpunkcje i symbole na świecie.

Unicode umożliwia przetwarzanie, przechowywanie i transport tekstu niezależnie od platformy i języka.

Domyślne kodowanie znaków w HTML-5 to UTF-8.

Jeśli strona internetowa HTML5 używa innego zestawu znaków niż UTF-8, należy to określić w tagu <meta>, na przykład:

Przykład

Różnica między Unicode a UTF-8

Unicode to zestaw znaków . UTF-8 to kodowanie .

Unicode to lista znaków z unikalnymi liczbami dziesiętnymi (punktami kodowymi). A = 65, B = 66, C = 67, ....

Ta lista liczb dziesiętnych reprezentuje ciąg „cześć”: 104 101 108 108 111

Kodowanie polega na tłumaczeniu tych liczb na liczby binarne, które mają być przechowywane w komputerze:

Kodowanie UTF-8 zapisze "hello" w ten sposób (binarnie): 01101000 01100101 01101100 01101100 01101111

Kodowanie tłumaczy liczby na binarne. Zestawy znaków tłumaczy znaki na liczby.

Kody znaków HTML5 UTF-8

Poniżej znajduje się lista niektórych kodów znaków UTF-8 obsługiwanych przez HTML5:

Character codes	Decimal	Hexadecimal
C0 Controls and Basic Latin	0-127	0000-007F
C1 Controls and Latin-1 Supplement	128-255	0080-00FF
Latin Extended-A	256-383	0100-017F
Latin Extended-B	384-591	0180-024F
Spacing Modifiers	688-767	02B0-02FF
Diacritical Marks	768-879	0300-036F
Greek and Coptic	880-1023	0370-03FF
Cyrillic Basic	1024-1279	0400-04FF
Cyrillic Supplement	1280-1327	0500-052F
General Punctuation	8192-8303	2000-206F
Currency Symbols	8352-8399	20A0-20CF
Letterlike Symbols	8448-8527	2100-214F
Arrows	8592-8703	2190-21FF
Mathematical Operators	8704-8959	2200-22FF
Box Drawings	9472-9599	2500-257F
Block Elements	9600-9631	2580-259F
Geometric Shapes	9632-9727	25A0-25FF
Miscellaneous Symbols	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

❮ Poprzedni Następny ❯

Zestawy znaków HTML

HTML UTF-8

Symbole HTML