Edition numérique : contexte du Web sémantique

Projet : Descartes
Responsable : Benoît Hufschmitt,
Equipe : Benoît Hufschmitt, Daniel Mercier, Ioan Roxin, Clément Borel

 

Contexte et objectifs de la recherche en cours

Au début de l’année 2000, quelques membres du Centre de Documentation et Bibliographie Philosophiques (CDBP) et du Edition Littérature Langages Informatique Arts Didactique Discours (ELLIADD) de l'Université de Franche-Comté décident de mener en commun une réflexion sur l’édition d’un texte de philosophie (le Discours de la méthode de Descartes) en usant au mieux des possibilités offertes par les outils du Web.

Nous avons choisi de structurer les œuvres de Descartes autour du Discours de la Méthode, car ce texte fondateur ouvre l'accès aux autres textes de Descartes lui-même ainsi qu’aux sources (possibles, probables, certaines) de la philosophie cartésienne. Nous nous proposons donc de lier au Discours de la Méthode tous les textes qui lui sont associés par ses grands commentateurs (Etienne Gilson, bien sûr, auteur d'un véritable commentaire hypertextuel du Discours, mais aussi Ferdinand Alquié ou Geneviève Rodis-Lewis, etc.) .
C’est dans cette continuité que nous proposons aujourd’hui une réflexion sur une édition numérique qui ne se contenterait pas de la simple mise en ligne des textes mais qui enrichirait ces derniers en révélant des associations entre eux. Ce sujet se trouve à la confluence de deux axes de recherche très porteurs que sont les bibliothèques numériques (Gallica – BNF, Europeana, Bibliothèque numérique mondiale, Google Book, …) d’une part et le Web sémantique d’autre part.
Nous souhaitons tirer partie des possibilités offertes par les technologies du Web pour proposer au lecteur une approche plus complète d’un texte en le replaçant dans son contexte. Le document reprend alors sa place dans un environnement permettant de mieux appréhender les idées qu’il développe.

 

Tout texte est au centre d'un réseau de textes

En évoluant, le web propose un cadre technique, social et architectural propice au développement des bibliothèques numériques. L’ensemble des phénomènes sociaux engendrés par le Web 2.0 facilitent la diffusion et la classification des documents numériques. Les technologies du Web sémantique, quant à elles, ajoutent du sens aux données de façon à ce qu’elles soient intelligibles par l’homme mais aussi « interprétables » par la machine.
Nous utilisons un système d’hyperliens sémantiques étendus permettant de créer des liaisons multiples et précises entre les textes (ou parties de texte). D’une part, l’utilisation d’hyperliens étendus (dénomination empruntée au langage XLink) permet d’associer plusieurs cibles à une seule source, d’autre part, la sémantique contenue dans la liaison permet de spécifier le type d’information qu’apporte la ressource ciblée. La mise en application de telles liaisons soulèvent deux problèmes principaux. Le premier concerne la multiplicité des cibles des liens étendus, le second, la nécessité d’exprimer des assertions sur les assertions.
Contrairement à un hypertexte classique dans lequel une source est associée à une seule cible, les liens que nous proposons peuvent renvoyer vers plusieurs ressources. Cette faculté conduit à une réflexion sur la navigation. En effet, comment ouvrir la cible qui intéresse le lecteur ? Faut-il ouvrir toutes les cibles associées lors de l’activation d’un lien ou alors passer par une étape intermédiaire permettant de sélectionner la ressource désirée ? Jusqu’à présent, nous avons retenu la seconde solution. Dans la maquette existante, un graphe représentant les différentes liaisons entre une source et ses cibles est affiché à l’activation d’un lien.
Il est souvent nécessaire de savoir dans quel contexte une affirmation a été faite. Souhaitant proposer des outils permettant de recréer un commentaire complet d’une œuvre philosophique, nous désirons, par exemple, connaitre la source, la fiabilité, ou encore la date de création d’une déclaration. Pour remettre en contexte les assertions, nous avons besoin de créer des assertions sur les assertions. Typiquement nous avons une assertion du type « Tel texte est lié à tel autre » sur laquelle nous devons ajouter des métadonnées. Ainsi nous devons représenter des relations du type « Gilson a dit que « tel texte est lié à tel autre  » ». La sérialisation RDF/XML propose une méthode, appelée réification, pour réaliser ce genre d’assertion. La maquette RDF a été réalisée en utilisant ce principe de réification. Cependant cette solution pose plusieurs problèmes. D’une part, la taille des données augmente considérablement puisque chaque triplet devant être réifié doit être réécrit sous la forme de trois nouveaux triplets, d’autre part, la forme de l’assertion ayant changée, la sémantique du triplet n’est plus tout à fait la même. Comme il l’est indiqué dans la spécification RDF, la réification n'est pas un mécanisme de citations.
Pour palier à ces problèmes, deux autres solutions sont étudiées : les Named Graphs et les Signed Graphs. Cependant l’utilisation d’une de ces deux solutions implique un changement dans la sérialisation des données RDF, RDF/XML ne permettant pas de les mettre en œuvre.
Courant de l’année, notre équipe sera également responsable d’un numéro spécial de la revue Document Numérique, publiée par Hermes Sciences, ayant pour thème le Web Sémantique. Ce travail sera l’occasion d’échanges avec d’autres chercheurs avec qui nous partageons les mêmes thématiques.

2.2. Perspectives

Pour valoriser cette expérience dans une ultime étape du projet Descartes, nous nous efforcerons de proposer plusieurs métaphores pour l’interface de navigation. Nos recherches vont se diriger vers des représentations en 3D avec possibilité de zoom et de déplacements semblables à ceux que peut offrir un monde virtuel.
A partir des métadonnées enregistrées pour différents textes (et pas seulement ceux de Descartes) plusieurs visualisations interactives permettront de naviguer à différents niveaux d’abstraction. Ainsi, on peut imaginer une véritable cartographie des idées. Une telle réalisation suppose l’utilisation d’une ou plusieurs ontologies. Sachant que toute la sémantique ne sera pas nécessairement exprimée dans ces ontologies, nous proposerons aussi des techniques d’analyse conceptuelle reposant sur la création et l’exploitation de treillis de concepts (treillis de Galois). Ensuite, pour regrouper les concepts nous pourrons faire appel aux techniques de clustering (regroupement des concepts) ou de filtrage (sélection des concepts les plus pertinents).
Les idées évoluant, migrant et contaminant de nouveaux espaces, il n’est pas interdit de projeter des cartographies synchroniques et diachroniques pour figurer des états à des instants donnés ou, au contraire représenter les glissements et les filiations qui définissent l’histoire des idées.