Skip to content

Ajouter explications sur les séparateurs et Table Schema #117

Open
@johanricher

Description

(J'ai hésité sur le lieu pour avoir cette discussion, au final ici me paraît le plus adapté. En effet, les guides Etalab ont vocation à mon avis à faire référence en la matière et s'appliquer de façon canonique aux différents projets et produits *.data.gouv.fr)

Les séparateurs dans les fichiers tabulaires sont un sujet de désaccords récurrent. Pourtant, pour les producteurs de données, les séparateurs ne devraient avoir aucune espèce d'importance. Par exemple, l'utilisation des schémas Table Schema permet justement de supprimer certaines de ces préoccupations qui sont autant de frictions à l'ouverture des données.

La conversation qui a lieu depuis le 28 avril sur la page de la Base nationale consolidée des lieux de covoiturage illustre bien les différents problèmes.

Premièrement, il y a à la base l'éternel débat du point-virgule contre la virgule et la croyance qu'il y aurait un "standard CSV" à respecter. Il serait possible sur ce point de compléter le guide d'Etalab afin de casser les idées reçues sur le CSV. Les utilisateurs pourraient ainsi s'y référer.

Deuxièmement, le plus important pour moi serait d'expliquer que les séparateurs n'ont la plupart du temps pas d'importance. En particulier, documenter le fait que la spécification Table Schema n’a aucune notion de séparateur puisqu'on travaille sur des données tabulaires et pas que des CSV. En clair, un fichier sera valide s'il respecte le schéma, quel que soit le séparateur utilisé et même quel que soit son format tant qu'il est supporté (.csv, .xlsx, .xls, .ods...).

La documentation du SCDL, avec ses "recommandations pour le formatage des fichiers" rédigées par OpenDataFrance, entretient également cette confusion. Nous allons tâcher d'y remédier : https://git.opendatafrance.net/scdl/documentation/-/issues/12, mais je pense que ça sera plus facile de convaincre OpenDataFrance si Etalab montre la voie.

Enfin, il faudrait enlever toutes les mentions de séparateurs dans la documentation des schémas, en l'occurence celle du schéma des lieux de covoiturage. Pour clarifier encore davantage, il faudrait préciser que les producteurs peuvent choisir le séparateur (et le format tabulaire) qu'ils préférent.

Qu'en pensez-vous ? @geoffreyaldebert @abulte @fchabouis

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions