Warning: Undefined array key "DOKU_PREFS" in /home/clients/a4e6fc1ce1761b72982b805de0f418c4/web/python/mesrecettespython/inc/common.php on line 2082
encodage [Les recettes Python de Tyrtamos]

Outils pour utilisateurs

Outils du site


encodage

Warning: Undefined array key -1 in /home/clients/a4e6fc1ce1761b72982b805de0f418c4/web/python/mesrecettespython/inc/html.php on line 1458

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
encodage [2009/08/17 08:58]
tyrtamos
encodage [2009/08/31 23:20]
tyrtamos
Ligne 37: Ligne 37:
 Pour les autres pays ayant des caractères non latins, il existe d'autres codages de caractères comme l'iso-8859-5 pour l'alphabet cyrillique, l'iso-8859-7 pour l'alphabet grec moderne, etc...  Pour les autres pays ayant des caractères non latins, il existe d'autres codages de caractères comme l'iso-8859-5 pour l'alphabet cyrillique, l'iso-8859-7 pour l'alphabet grec moderne, etc... 
  
-Mais maintenant, comment faire pour que les même programmes puissent, sans changer de codage de caractères, être utilisés en Grèce, en Inde, en Russie, en Chine, etc... Ceci d'autant plus qu'avec Internet, les échanges sont devenus quotidiens, et rien ne doit vous empêcher de converser par mail avec des chinois ou des russes. La multiplicité des caractères exclut qu'on reste à l'intérieur des octets (0 à 255): alors, comment on fait? **On invente l'UNICODE!** Voir [[http://fr.wikipedia.org/wiki/Unicode]].+\\ 
 +Mais maintenant, comment faire pour que les mêmes programmes puissent, sans changer d'encodage de caractères, être utilisés en Grèce, en Inde, en Russie, en Chine, etc... Ceci d'autant plus qu'avec Internet, les échanges sont devenus quotidiens, et rien ne doit vous empêcher de converser par mail avec des chinois ou des russes. La multiplicité des caractères exclut qu'on reste à l'intérieur des octets (0 à 255): alors, comment on fait? **On invente l'UNICODE!** Voir [[http://fr.wikipedia.org/wiki/Unicode]].
  
 Il y a en fait plusieurs types d'unicode: UCS-2, UTF-8, UTF-16, UTF-32, ... Il y a en fait plusieurs types d'unicode: UCS-2, UTF-8, UTF-16, UTF-32, ...
Ligne 43: Ligne 44:
 En simplifiant, pour nous, français utilisant Python: En simplifiant, pour nous, français utilisant Python:
  
-  * **UCS-2** est l'unicode utilisé en interne par Python. Il est proche de l'UTF-16.+  * **UCS-2** est l'Unicode utilisé en interne par Python. Il est proche de l'UTF-16.
   * **UTF-8** utilise de 1 à 4 octets par caractère. L'avantage est que les caractères codés en 1 seul octet de 0 à 127 sont sensiblement les mêmes que dans l'ASCII.    * **UTF-8** utilise de 1 à 4 octets par caractère. L'avantage est que les caractères codés en 1 seul octet de 0 à 127 sont sensiblement les mêmes que dans l'ASCII. 
   * **UTF-16** utilise 2 octets par caractères (plus si nécessaire pour des cas spéciaux et rares)   * **UTF-16** utilise 2 octets par caractères (plus si nécessaire pour des cas spéciaux et rares)
 +  * **UTF-32** plus rare, utilise 4 octets par caractères
  
 ===== Généralités sur l'encodage des caractères dans Python ===== ===== Généralités sur l'encodage des caractères dans Python =====
  
-Avec Python 2.6, on peut toujours travailler avec des codages sur un octets, par exemple avec l'iso-8859-1, mais on va de plus en plus travailler en Unicode. Et ceci, surtout si on travaille en multiplateforme et en multilingue. En ce qui me concerne, comme je fais du développement windows-linux, je suis obligé de travailler le plus souvent en utf-8 qui est l'encodage par défaut des linux modernes. +Avec Python 2.6, on peut toujours travailler avec des codages sur un octets, par exemple avec l'iso-8859-1/latin-1 (ou cp1252 sous Windows), mais on va de plus en plus travailler en Unicode. Et ceci, surtout si on travaille en multiplateforme et en multilingue. En ce qui me concerne, comme je fais le plus souvent du développement windows-linux, je suis obligé de travailler le plus souvent en utf-8, y compris pour les codes sources, qui est l'encodage par défaut des Linux modernes. 
  
 Les codages utilisables par Python sont ici: [[http://docs.python.org/library/codecs.html#standard-encodings]] Les codages utilisables par Python sont ici: [[http://docs.python.org/library/codecs.html#standard-encodings]]
  
 +\\
 Si on veut travailler en Unicode avec Python, voici quelques principes simples à respecter: Si on veut travailler en Unicode avec Python, voici quelques principes simples à respecter:
  
   * Dans les traitements, on travaille uniquement en Unicode interne (qui n'est ni l'utf-8 ni l'utf-16!)   * Dans les traitements, on travaille uniquement en Unicode interne (qui n'est ni l'utf-8 ni l'utf-16!)
  
-  * On convertit le plus tôt possible tout ce qui rentre: saisie, code source, lecture d'une base de données, réception d'un réseau, etc...+  * On convertit le plus tôt possible tout ce qui rentre: saisie, code source, lecture d'un fichier de données ou d'une base de données, réception d'un réseau, etc...
  
-  * On convertit le plus tard possible tout ce qui sort (affichage, impression, écriture dans une base de données, émission vers un réseau, etc...+  * On convertit le plus tard possible tout ce qui sort (affichage, impression, écriture dans un fichier de données ou dans une base de données, émission vers un réseau, etc...
  
 +\\
 Remarques: Remarques:
  
Ligne 67: Ligne 71:
   * la nécessité de convertir en entrée et en sortie suppose que vous avez connaissance des encodages utilisés dans les données externes! Ce n'est pas le plus simple.    * la nécessité de convertir en entrée et en sortie suppose que vous avez connaissance des encodages utilisés dans les données externes! Ce n'est pas le plus simple. 
  
-===== Entrée/Traitement/sortie de chaines de caractères =====+\\ 
 +Pour reproduire les tests ci-dessous, je vous suggère de vous munir de 3 outils supplémentaires: 
 + 
 +  * un éditeur de texte sachant enregistrer sous différents encodages, y compris l'utf-8 (pour Windows, le bloc-note "notepad" fait cela). 
 + 
 +  * un éditeur hexadécimal permettant de lire des fichiers (ça existe sous Windows et sous Linux) 
 + 
 +  * une table des caractères (ça existe sous Windows et sous Linux) 
 + 
 +En ce qui concerne le développement multiplateforme sous Windows, la 1ère difficulté est de trouver un outil de développement qui permette l'édition du code source en UTF-8, ainsi que les fins de ligne UNIX. En ce qui me concerne, j'utilise "Easy Eclipse pour Python". L'éditeur Scite marche aussi. Mais, par exemple, l'éditeur de texte Context, que j'utilisais beaucoup, ne le permet pas.  
  
 ===== Entrée/sortie de chaines de caractères ===== ===== Entrée/sortie de chaines de caractères =====
  
 ==== Chaines de caractères intégrées dans le code source ==== ==== Chaines de caractères intégrées dans le code source ====
 +
 +Quand vous écrivez le code d'un programme, vous utilisez un éditeur de texte qui utilise un encodage vous permettant, par exemple, d'insérer une chaine de caractère comportant des caractères accentués. Quand vous enregistrez le code sur disque, vous devez pouvoir choisir l'encodage utilisé dans l'enregistrement (ou, au moins, le connaitre). Et, pour renseigner python lors de l'exécution, vous devez l'informer de l'encodage du fichier en écrivant la ligne suivante tout au début du code juste après le shebang. Par exemple avec l'encodage "utf-8":
 +
 +<code python>
 +# -*- coding: utf-8 -*-
 +</code>
 +
 +Pour comprendre la liaison entre ces éléments, vous pouvez faire les manips suivantes:
 +
 +  * 
 +
  
 ==== Entrées au clavier de chaines de caractères ==== ==== Entrées au clavier de chaines de caractères ====
Ligne 77: Ligne 101:
 ==== Entrée par lecture de données sur disque ==== ==== Entrée par lecture de données sur disque ====
  
-==== Traitement interne de chaines de caractères ====+==== Conversion interne en unicode ====
  
  
encodage.txt · Dernière modification: 2009/08/31 23:20 de tyrtamos