Hypertextes et théorie de l'information (historique)

Dès la fin des années quatre-vingt il y avait urgence de mettre au point des techniques permettant de sélectionner de façon "intelligente" les documents qui s'accumulaient à un rythme exponentiel sur les supports numériques (CD-ROM, réseaux, etc.). Bien que l'on ne pouvait pas prévoir à l'époque l'ampleur qu'allait prendre le "web" (c'est-à-dire l'information liée au protocole http de l'Internet), les travaux concernant les hypertextes, le partage d'information sur les réseaux, les protocoles de l'Internet existant (news, gopher, etc.) allaient déjà bon train. Ceux concernant l'archivage et le "retrievage" de documents faisaient même figure de "classique" en le domaine.

Quelques années plus tard, Google faisait ses premiers pas sans toutefois résoudre le problème du calibrage de l'information apportée par un nouveau document par rapport à celle qui est déjà intégrée aux connaissances déjà acquises.

Dès cette époque, un projet orienté "pédagogie" est développé à l'Institut de recherche et de documentation pédgogique (IRDP) (L.-O. Pochon) en collaboration avec la société Analyse et archivage d'images A2I (A. Favre).

De nombreux concepts étaient à préciser ou à redéfinir comme celui de document, de connaissances et d'information afin de pouvoir construire une représentation, un modèle, de ces objets qui permette de "calculer" l'apport d'information par un document. Par ailleurs, le point de vue de l'utilisateur peut jouer un rôle non négligeable dans la définition de ce qui est intéressant ou non.

Ce travail, s'inscrit dans ce cadre général. En vue de définir un modèle qui permette d'estimer de façon relativement stable la quantité d'information contenue dans un corpus de données complexes et de maîtriser de ce point de vue un certain nombre d'opérations effectuées sur ce corpus (notamment des ajouts), nous avons rassemblé ici un certain nombre de notions et de références qui nous paraissent utiles.

Pour élaborer un modèle, il nous est apparu intéressant de faire appel à la notion d'hypertexte comme structure de l'information. Ce modèle qu'il s'agira de préciser, présente l'avantage de possèder une partie formelle (le graphe des liens), mais permet également de considérer une partie non structurée (le contenu des unités d'information). Il faut aussi mentionner que selon plusieurs cogniticiens, l'hypertexte présente aussi une structure qui n'est pas sans quelques analogies avec certaines structures mentales.

Il s'agit donc de trouver des éléments quantitatifs qui permettent de comparer entre eux divers hypertextes, en particulier les versions successives d'un même hypertexte.

Ainsi, si l'on reprend l'équation fondamentale de l'information et de la connaissance de Brookes [BRO 80]: K[S] + I = K[S+ S] qui donne l'accroissement de connaissance K liée à une structure S lors de l'apport d'un paquet d'information I, la structure ou support S de la connaissance sera pour nous un hypertexte. Reste le problème de l'interprétation de K.

La théorie des graphes est largement utilisée pour la modélisation des hypertextes. C'est cette voie que nous aborderons également en considérant tout d'abord des relations plus élémentaires permettant de préciser l'idée de concept "référence". Ce point généralise la théorie de l'indexation des documents à partir des citations [SAV 96]. Le graphe "classique" (entre unités d'informations) sur les hypertextes [FUR 96], peut être défini à partir de ces relations élémentaires.

Par ailleurs, il s'avère utile de pouvoir procéder à une classification des noeuds et des liens. Pour cela, [LUC 96] introduit un modèle "objet" permettant de définir des classes d'unités d'informations. Toutefois cette approche "a prioriste" s'avère trop rigide lorsqu'il s'agit de rendre compte d'une construction "naturelle" d'un hypertexte. Nous proposerons donc une classification "a posteriori" basée sur le typage des liens, classification que l'on peut qualifier de dynamique puisqu'elle pourra à tout instant être recalculée sur la base de l'état de l'hypertexte.

De fait, on distingue une première version du modèle "à information complète" ou "a priori". Dans cette perspective, on suppose que la totalité de l'information est connue. A ce modèle sera confronté un processus de construction à partir d'un corpus de documents dont la structure a priori n'est pas connue.

Cela conduit à la notion de modèle "a posteriori" avec diverses nuances puisqu'on montrera dans la problématique de l'interaction entre les mondes II et III de Popper (cité dans [BRO 80]), celui de la connaissance subjective (les représentations mentales) et celui de la connaissance dite "objective" (l'ensemble des documents), c'est-à-dire l'existence d'une symbolisation dans un langage en principe universel de l'état du monde physique (qui est le monde I dans la modèle de Popper). Cette symbolisation n'exclut pas des interprétations multiples, avec des contradictions possibles, et naturellement de nombreuses informations manquantes.

Ces problèmes seront abordés graduellement dans plusieurs documents qui meneront notamment à la notion de " recuit " liée à l'évolution d'un hypertexte d'une part dans son traitement automatique (modèle a posteriori) et d'autre part dans un modèle qui tiendrait compte des caractéristiques d'un groupe d'utilisateurs. Cette voie débouche à la fois sur des problèmes liés aussi bien à des aspects cognitifs que représentationnels.

(c) ABORD, 2013 (repris de L-O. Pochon, A. Favre, IRDP, 1998)