Zestawy znaków HTML


Aby poprawnie wyświetlić stronę HTML, przeglądarka musi wiedzieć, jakiego zestawu znaków (kodowania) użyć:

Przykład

<meta charset="UTF-8">

Zestawy znaków HTML

Specyfikacja HTML5 zachęca twórców stron internetowych do używania zestawu znaków UTF-8!

Nie zawsze tak było. Kodowanie znaków we wczesnej sieci było ASCII.

Później, od HTML 2.0 do HTML 4.01, jako standardowy zestaw znaków uznano ISO-8859-1.

Dzięki XML i HTML5 wreszcie pojawił się UTF-8 i rozwiązał wiele problemów z kodowaniem znaków.


Na początku: ASCII

Dane komputerowe są przechowywane w elektronice jako kody binarne (01000101).

Aby ujednolicić przechowywanie tekstu, stworzono American Standard Code for Information Interchange (ASCII). Zdefiniowano unikalną liczbę binarną dla każdego możliwego do zapisania znaku, aby obsługiwać liczby od 0 do 9, duże i małe litery alfabetu (az, AZ) oraz znaki specjalne, takie jak ! $ + - ( ) @ < > , .

Ponieważ ASCII używał 7 bitów na znak, mógł reprezentować tylko 128 różnych znaków.

Największą słabością ASCII było to, że wykluczył litery inne niż angielskie.

ASCII jest nadal używany, zwłaszcza w dużych systemach komputerowych typu mainframe.

Aby uzyskać bliższe informacje, zapoznaj się z naszym kompletnym materiałem referencyjnym ASCII .


W systemie Windows: Windows-1252

Windows-1252 był domyślnym zestawem znaków w systemie Windows, aż do Windows 95.

Jest to rozszerzenie do ASCII z dodanymi znakami międzynarodowymi.

Używa pełnego bajtu (8-bitów) do reprezentowania 256 różnych znaków.

Ponieważ Windows-1252 jest domyślnym systemem Windows, jest obsługiwany przez wszystkie przeglądarki.

Aby przyjrzeć się bliżej, zapoznaj się z: Kompletny dokument dotyczący systemu Windows-1252 .



W HTML 4: ISO-8859-1

Najczęściej używanym zestawem znaków w HTML 4 był ISO-8859-1.

ISO-8859-1 jest rozszerzeniem ASCII z dodanymi znakami międzynarodowymi.

Przykład

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

W HTML 4 zestaw znaków inny niż ISO-8859-1 może być określony w tagu <meta>:

Przykład

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Wszystkie procesory HTML 4 obsługują również UTF-8:

Przykład

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Kiedy przeglądarka wykryje ISO-8859-1, zwykle domyślnie wybiera Windows-1252, ponieważ Windows-1252 ma 32 więcej znaków międzynarodowych.

Aby uzyskać bliższe informacje, zapoznaj się z: Kompletne odniesienie do normy ISO-8859-1


W HTML5: Unicode UTF-8

Specyfikacja HTML5 zachęca twórców stron internetowych do używania zestawu znaków UTF-8.

Przykład

<meta charset="UTF-8">

W tagu <meta> można określić zestaw znaków inny niż UTF-8:

Przykład

<meta charset="ISO-8859-1">

Konsorcjum Unicode opracowało standardy UTF-8 i UTF-16, ponieważ zestawy znaków ISO-8859 są ograniczone i nie są kompatybilne ze środowiskiem wielojęzycznym.

Standard Unicode obejmuje (prawie) wszystkie znaki, interpunkcje i symbole na świecie.

Wszystkie procesory HTML5 i XML obsługują UTF-8, UTF-16, Windows-1252 i ISO-8859.

Aby przyjrzeć się bliżej, zapoznaj się z: Kompletne odniesienie do Unicode .