Unicode, UTF-8, ISO-8859-x Questions de codages

Développeur

BOURSE

RUBRIQUES

Services

Benchmark Group

L'internaute Magazine

PRATIQUE ALGO/METHODES

Unicode, UTF-8, ISO-8859-xx... Questions de codages

Nombre de codes ont été mis au point pour s'assurer qu'un symbole sur un système s'affiche aussi bien sur tel autre système. Décryptage. (19/05/2004)

Le partage d'informations sous forme de documents textes pose une problématique amplifiée par l'arrivée d'Internet et la mondialisation de ce partage: faire en sorte qu'un document, et les informations qu'il contient, puissent être traités avec autant de facilité sur un système utilisant un certain jeu de caractères (occidental, par exemple) et un système utilisant un jeu différent (oriental, toujours par exemple).

Pour cela, nombre de codes ont été mis au point pour s'assurer qu'un symbole sur un système s'affiche aussi bien sur tel autre système. Au fur et à mesure, de nouveaux codes ont été mis au point pour reconnaître les caractères spéciaux d'un plus grand nombre de langues, jusqu'à Unicode (citons ASCII, EBCDIC et ISO-2022).
Ce court article va tenter de vous donner une idée de ce à quoi correspondent les codes et appellations les plus couramment utilisés sur Internet.

Unicode : le standard de codage de caractères sur lequel reposent tous les espoirs à l'heure actuelle. Conçu par le consortium Unicode, il est censé fournir une méthode universelle de codage pour les caractères de n'importe quelle langue, sur toute plate-forme le reconnaissant. Conçu en 1993, il est aujourd'hui au cur de tous les systèmes modernes (Windows, Mac OS, UNIX), mais n'est pas forcément reconnu/utilisé par toutes les applications.

UTF-8 : un codage tiré de Unicode (UTF signifie Unicode Transformation Format), où au lieu d'avoir un caractère encodé en 2 octets, il l'est de manière variable en UTF-8 (1, 2 voire 3 octets pour les caractères complexes), et permet une sérialisation plus efficace du texte. C'est le codage de base de XML, et donc le plus courant aujourd'hui.

ISO-8859-1 : également connue sous le nom de Latin-1, ce n'est que le premier de 15 codages (de ISO-8859-1 à ISO-8859-15), chacun englobant tout (ou, parfois, partie) des caractères utilisés dans une région ou une forme de langue : Europe de l'Ouest, du Nord, du Sud, et Centrale, Arabe, Grec, Hébreu, Celte, Thaï.

Forum

Réagissez dans les forums de JDN Développeurs

Notoirement créé rapidement, ISO-8859-1 est très diffusé mais pas idéal - il manque par exemple certaines lettres françaises. Il faut cependant compter avec lui car il s'agit du codage standard d'UNIX et de nombreux logiciels (dont certains navigateurs et logiciels de courrier), et Unicode en est une extension.
Les normes ISO-8859-xx ne sont pour autant pas complètes (notamment en ce qui concerne l'extrême-orient), et il est préférable de nos jours de se référer à Unicode ou UTF-8.


Xavier Borderie, JDN Développeurs





Accueil \| Haut de page