Odniesienie HTML Unicode (UTF-8)
Konsorcjum Unicode
Konsorcjum Unicode opracowuje standard Unicode. Ich celem jest zastąpienie istniejących zestawów znaków standardowym formatem transformacji Unicode (UTF).
Standard Unicode odniósł sukces i jest zaimplementowany w HTML, XML, Java, JavaScript, E-mail, ASP, PHP itp. Standard Unicode jest również obsługiwany w wielu systemach operacyjnych i we wszystkich nowoczesnych przeglądarkach.
Konsorcjum Unicode współpracuje z wiodącymi organizacjami zajmującymi się opracowywaniem standardów, takimi jak ISO, W3C i ECMA.
Zestawy znaków Unicode
Unicode można zaimplementować za pomocą różnych zestawów znaków. Najczęściej używane kodowania to UTF-8 i UTF-16:
Character-set | Description |
---|---|
UTF-8 | A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages |
UTF-16 | 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET. |
Wskazówka: Pierwsze 128 znaków Unicode (które odpowiadają jeden do jednego za pomocą ASCII) są zakodowane przy użyciu pojedynczego oktetu o tej samej wartości binarnej co ASCII, dzięki czemu prawidłowy tekst ASCII jest również poprawny w kodowaniu UTF-8 w formacie Unicode.
HTML 4 obsługuje UTF-8. HTML 5 obsługuje zarówno UTF-8, jak i UTF-16!
Standard HTML5: Unicode UTF-8
Ponieważ zestawy znaków w ISO-8859 miały ograniczony rozmiar i nie były kompatybilne w środowiskach wielojęzycznych, Konsorcjum Unicode opracowało standard Unicode.
Standard Unicode obejmuje (prawie) wszystkie znaki, interpunkcje i symbole na świecie.
Unicode umożliwia przetwarzanie, przechowywanie i transport tekstu niezależnie od platformy i języka.
Domyślne kodowanie znaków w HTML-5 to UTF-8.
Jeśli strona internetowa HTML5 używa innego zestawu znaków niż UTF-8, należy to określić w tagu <meta>, na przykład:
Przykład
<meta charset="ISO-8859-1">
Różnica między Unicode a UTF-8
Unicode to zestaw znaków . UTF-8 to kodowanie .
Unicode to lista znaków z unikalnymi liczbami dziesiętnymi (punktami kodowymi). A = 65, B = 66, C = 67, ....
Ta lista liczb dziesiętnych reprezentuje ciąg „cześć”: 104 101 108 108 111
Kodowanie polega na tłumaczeniu tych liczb na liczby binarne, które mają być przechowywane w komputerze:
Kodowanie UTF-8 zapisze "hello" w ten sposób (binarnie): 01101000 01100101 01101100 01101100 01101111
Kodowanie tłumaczy liczby na binarne. Zestawy znaków tłumaczy znaki na liczby.
Kody znaków HTML5 UTF-8
Poniżej znajduje się lista niektórych kodów znaków UTF-8 obsługiwanych przez HTML5:
Character codes | Decimal | Hexadecimal |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |