Etude expérimentale de la structure des concepts d'un hypertexte

Introduction

Dans ce document, il est rendu compte de la structure du graphe des concepts associés à un hypertexte. Le premier exemple concerne un hypertexte obtenu par R et D (hptxt1000-900c). Le deuxième est construit par agrégation à partir de 2 germes (simul2g-500-100).

Premier hypertexte

La matrice du graphe est obtenue par: G = D'* R. La figure 1 représente la distribution du nombre de concepts conduisant à un concept donné (concept "sur", hist(sum(G,1)). La figure 2 donne la distribution des concepts "sortants".

Le CORE (unique) est consitué de 874 concepts (sur un total de 900).

fig 1. Distribution des concepts "sur".

fig 2. Distribution des concepts "de".

On constate que ces distributions s'apparentent à celles obtenues sur la graphe des unités d'information.

La deuxième étude utilise la technique introduite dans le document Structure d'un hypertexte sous forme matricielle. La figure 3 introduit une coupure de valeur 0.01.

fig 3. Représentation des concepts de l'hypertexte: hptxt1000-900c. Valeur de coupure 0.01

Les concepts à droite sont les concepts "puit" c'est-à-dire terminaux ou primitifs, il ne font appel à aucun n'autres. Les concepts en haut sont les concepts "source", c'est-à-dire qui ne sont jamais utilisés par d'autres. Les concepts proches de l'origine sont des concepts "hubs".

Deuxième hypertexte

Le deuxième hypertexte est obtenu par agrégation. Il contient 2524 arêtes qui deviendront dans la construction R - D des concepts. Les distributions "sur" et "de" sont données par les figures 5 et 6. A nouveau, les distributions sont apparentées à ces des liens entre Ui.

fig 4. Distribution des concepts "sur".

fig 5. Distribution des concepts "de".

La figure 6, représente les concepts dans le plan donné par leur coordonnées "sur" et "de". Pour des problèmes de calcul, on s'est limité à une approximation de la fermeture à distance 3 (ST = 1 + GBAR + GBAR^2 + GBAR ^3 coupure a 0.001)

fig 6. Représentation des concepts de l'hypertexte: simul2g-500-100.

On notera que #K3(c) = 1 pour environ 1000 concepts c. La valeur maximum est de 173. Elle ne dépasse 100 que pour 17 concepts.

(c) A. Favre & L.-O. Pochon, IRDP, 2004