Conversion d'un fichier CSV utf8

16033 vues
17 décembre 2015
Jérémie
importcsv

Nous avons développé un nouveau plugin d'export CSV des listes SEBLOD qui permet en un clic de générer un fichier CSV depuis n'importe qu'elle liste. Ce plugin sera disponible sous peu en téléchargement.

Cependant pour rendre les accents visibles d'un fichier csv exporté depuis une application php (encodé en utf 8) il faut utiliser l'assistant d'import de fichier d'excel. Il ne faut PAS ouvrir le fichier CSV directement.

La procédure est donc:

- ouvrir excel vide
- aller dans le menu DONNEES / données externes / fichier texte
- choisir dans la première étape le format d'encodage de la source
import csv: format utf8


- sélectionner le délimiteur utilisé dans le fichier csv

import csv delimiteur


- appuyer sur terminer et sauvegarder le fichier ainsi converti avec les accents sous Windows !

Pour rappel, UTF-8 (Unicode Transformation Format, 8-bit) est un format de codage de caractères qui permet la représentation de tous les caractères de l'ensemble de caractères Unicode en utilisant des séquences de 8 bits. Il est actuellement l'un des formats de codage de caractères les plus couramment utilisés pour les applications informatiques, en particulier pour les applications Web.

L'UTF-8 a été créé par Ken Thompson et Rob Pike à Bell Labs en 1993, et a été publié pour la première fois en 1994. Il a été conçu pour être compatible avec les systèmes existants qui utilisaient des codages de caractères ASCII, tout en permettant une représentation complète des caractères Unicode.

L'UTF-8 utilise des séquences de 1 à 4 octets pour représenter tous les caractères Unicode. Les caractères ASCII sont représentés sur un seul octet, tandis que les caractères non-ASCII nécessitent plusieurs octets. La première partie d'une séquence de plusieurs octets indique le nombre total d'octets de la séquence, ainsi que certaines informations sur la manière dont elle est encodée.

L'UTF-8 est devenu très populaire dans les applications Web en raison de sa compatibilité avec les systèmes existants et de sa capacité à représenter tous les caractères Unicode. Il est également devenu le format de codage de caractères par défaut dans de nombreux systèmes d'exploitation, éditeurs de texte et autres applications.

Un avantage clé de l'UTF-8 est sa compacité. Étant donné que les caractères ASCII sont représentés sur un seul octet, les documents contenant principalement des caractères ASCII nécessitent très peu d'octets supplémentaires pour les caractères non-ASCII. Cela permet de réduire la taille des fichiers et de faciliter leur transfert et leur stockage.

L'UTF-8 n'est pas sans limites, cependant. Les séquences de plusieurs octets peuvent rendre le traitement des chaînes de caractères plus complexe, et le traitement des fichiers UTF-8 nécessite une attention particulière pour éviter les erreurs de décodage. Il peut également être plus lent à décoder que les codages de caractères à un octet.

Malgré ces limites, l'UTF-8 reste l'un des formats de codage de caractères les plus couramment utilisés dans les applications informatiques, en particulier pour les applications Web. Sa capacité à représenter tous les caractères Unicode et sa compatibilité avec les systèmes existants ont fait de lui un choix populaire pour les développeurs et les administrateurs de systèmes.