Le partage d'informations sous forme de documents textes pose
une problématique amplifiée par l'arrivée d'Internet et la mondialisation
de ce partage: faire en sorte qu'un document, et les informations
qu'il contient, puissent être traités avec autant de facilité
sur un système utilisant un certain jeu de caractères (occidental,
par exemple) et un système utilisant un jeu différent (oriental,
toujours par exemple).
Pour cela, nombre de codes ont été mis au point pour s'assurer
qu'un symbole sur un système s'affiche aussi bien sur tel autre
système. Au fur et à mesure, de nouveaux codes ont été mis au
point pour reconnaître les caractères spéciaux d'un plus grand
nombre de langues, jusqu'à Unicode (citons ASCII, EBCDIC et
ISO-2022).
Ce court article va tenter de vous donner une idée de ce à quoi
correspondent les codes et appellations les plus couramment
utilisés sur Internet.
Unicode
: le standard de codage de caractères sur lequel reposent
tous les espoirs à l'heure actuelle. Conçu par le consortium
Unicode, il est censé fournir une méthode universelle de codage
pour les caractères de n'importe quelle langue, sur toute
plate-forme le reconnaissant. Conçu en 1993, il est aujourd'hui
au cur de tous les systèmes modernes (Windows, Mac OS, UNIX
),
mais n'est pas forcément reconnu/utilisé par toutes les applications.
UTF-8 : un codage tiré de Unicode (UTF signifie Unicode
Transformation Format), où au lieu d'avoir un caractère
encodé en 2 octets, il l'est de manière variable en UTF-8
(1, 2 voire 3 octets pour les caractères complexes), et permet
une sérialisation plus efficace du texte. C'est le codage
de base de XML, et donc le plus courant aujourd'hui.
ISO-8859-1 : également connue sous le nom de
Latin-1, ce n'est que le premier de 15 codages (de ISO-8859-1
à ISO-8859-15), chacun englobant tout (ou, parfois, partie)
des caractères utilisés dans une région ou une forme de langue
: Europe de l'Ouest, du Nord, du Sud, et Centrale, Arabe,
Grec, Hébreu, Celte, Thaï.
|
Forum |
|
Réagissez
dans les forums
de JDN Développeurs
|
Notoirement créé rapidement, ISO-8859-1 est très diffusé mais pas idéal - il manque
par exemple certaines lettres françaises. Il faut cependant
compter avec lui car il s'agit du codage standard d'UNIX et
de nombreux logiciels (dont certains navigateurs et logiciels
de courrier), et Unicode en est une extension.
Les normes ISO-8859-xx ne sont pour autant pas complètes (notamment
en ce qui concerne l'extrême-orient), et il est préférable de
nos jours de se référer à Unicode ou UTF-8. |