Rechercher un article
Cahiers GUTenberg (en ligne) issn 2118-8254

Table des matières de ce fascicule | Article précédent | Article suivant
Jacques André; Michel Goossens
Codage des caractères et multi-linguisme : de l’ASCII à UNICODE et ISO/IEC-10646
Cahiers Gutenberg no. 20 (1995), p. 1-53
Article PDF

Résumé

Après avoir rappelé les notions de glyphe et de caractère, nous étudions les normes classiques d’échange de caractères, telles qu’Ascii ou ISO-latin-1. Puis, nous décrivons Unicode, une norme de codage 16-bits qui a comme but de représenter tous les caractères des langues vivantes pour permettre l’échange sans problèmes de textes rédigés dans les langues parlées des différentes parties du monde. ISO/IEC-10646 est une généralisation à quatre octets — dont les 2 premiers octets coincident avec ceux d’Unicode — qui permet aussi la représentation de caractères spéciaux et anciens en les codant sur 32 bits.

Abstract

After revieiwing the difference between glyphs and characters, we discuss character exchange standards, like Ascii and ISO-Latin-1. Then we turn our attention to Unicode, a 16-bit encoding standard that will eventually represent the characters of all living languages and thus will make it possible to exchange without problems texts written in the languages spoken in various parts of the world. ISO/IEC-10646 is a 4-byte generalisation–the first two bytes coinciding with Unicode–but whose full 32-bits wide encoding space allows the representation of special or ancient characters.