Table des matières
Le choix d'un format d'édition est capital. On préferera la richesse sémantique à la beauté de la présentation.
On peut distinguer 3 types de formats :
les formats non structurés (MS-Word, PDF, Visio ... ) Ces formats "opaques" nécesitent l'ajout d'une couche applicative qui va leur associer des meta-données et les indexer.
les formats XML orientés présentation (XHTML, OpenOffice, ... ) Ces formats permettent des incohérences, comme d'avoir un chapitre dans un sous-chapitre. Mais ils possèdent déjà des meta-données (mots clés, auteur ...)
les formats XML orientés sémantique (DITA, Docbook, ... ) C'est la garantie d'une information cohérente et sensé.
Format XML standard pour la documentation technique : incontournable. Difficulté pour l'éditer et le publier : c'est à dire peu d'outils Wysiwyg (voir plus loin XXE et Cocoon pour répondre à ce problème.)
Le Darwin Information Typing Architecture : Format XML pour la documentation technique. Beaucoup moins utilisé et supporté que Docbook. DITA réutilise beaucoup d'éléments de XHTML et de Docbook. Il est cependant très instructif de lire leur page d'accueil, la FAQ et plus. Cela permet de formaliser beaucoup de concepts. La structure de ce document est grandement inspiré de la lecture de ce site. C'est un peu le format idéal, mais il risque d'être trop long à apprendre et à mettre en oeuvre.
Format XML héritier du HTML. Simple à éditer et surtout à publier. Ce format permet de plus l'utilisation d'annotations et est particulièrement bien adapté à WebDAV.
Le Text Encoding Initiative est un standard qui aide les librairies, musées, éditeurs et universitaires à représenter tout type de texte pour la recherche en-ligne et l'éducation, en utilisant la structure la plus expressive et la moins sensible à l'obsolescence.
On voit rapidement que le but de TEI, encore plus que dans le cas de DITA, dépasse largement le périmètre du projet. Cependant il doit être instructif de parcourir leur site.