Structure de l'hypertexte UTOPIA
|
|||||||||||||||||||||||||||||||||||||||||||||
PrésentationCe document présente la mise en oeuvre de algorithme de recherche de la structure globale d'un hypertexte dans le cas de UTOPIA. Les unités d'informationsLe document possède 213 unités d'informations que l'on peut classer en 8 catégories.
Ces données sont enregistrées dans 2 matrices, R et D à partir desquelles vont s'effectuer les calculs en particulier la matrice de structure S. Cas 1 (trunc = 1, coup = 0.01)Cette analyse se fait à partir de la matrice ST, matrice S tronquée à 0.01 puis dichotomisée. Les points sont organisés de gauche à droite et de bas en haut. Dans la table on note la zone, une brève description et la liste des unités avec leur numéro, leur nom et parfois leurs coordonnées (parenthèses en italique). Pour information la 'spy' de la matrice ST est :
Cas 2 (trunc = 0)Pour comparaison, le diagramme obtenu sans opération de "troncage" (et donc sans dichotomisation) paraît moins intéressant. Les composantes de l'hypertexteCette analyse utilise la matrice ST (structure tronquée et dichotomisée) et la symétrise. Ensuite on utilise le fait que dans une composante de l'hypertexte, les unités sont fortement liées entre elles. L'algorithme utilisé (qui pourrait être remplacé par une analyse cluster standard) procède de la façon suivante.
Cet algorithme est efficace mais il n'est pas symétrique dans le sens où il privilégie les premières composantes formées. Il pourrait être amélioré en choisissant pour chaque unité d'information la composante la plus proche ou en réitérant le procédé. Cela revient à utiliser des algorithmes d'analyse cluster classique (3). Avec UTOPIA, cet algorithme (avec coupure à 0.3 qui se révèle une valeur "intéressante" laissant peu d'unités isolées tout en gardant plusieurs composantes) fabrique 28 composantes constituées de 2 unités d'information ou plus. 10 unités sont considérées comme isolées: le champ 210, 2 notes et 7 citations. Les 28 composantes sont les suivantes (entre parenthèses le nombre d'unités dans chaque composante):
Les 14 composantes suivantes sont constituées de 5 unités (citations et notes). Il y a encore 5 composantes constituées de 4 unités (citations et notes), puis 5 composantes constituées de 3 unités (citations) et finalement une composante composée de 2 unités: l'introduction générale (unité 194) et une note. Notes(1) Les auteurs sont les suivants: 3 bronckart 4 schwaab 5 gigon 6 roller 7 bourquin 8 marc 9 erba 10 matthey 11 abdallah 12 perregaux 13 ludi 14 moore 15 floris 16 gerth 17 dominice 18 cros 19 allal 20 bouvier 21 fleury 22 hainard 23 schurch 24 boillat 25 maspero 26 thevoz 27 florin 28 gredy 29 cardinet (synthèse) (2) 203 c_acteur 204 c_alterite 205 c_citoyennete 206 c_echange 207 c_europe 208 c_identite 209 c_innovation 210 c_interdisciplinarite 211 c_media 212 c_pluralite 213 c_valeur (3) Des analyses réalisées avec l'algorithme "k-means" (http://www.cc.gatech.edu/~dellaert/FrankDellaert/Software.html) et l'utilisation des algorithmes de "Statistica" (distance pourcentage de désaccord, méthode de Ward) ne donnent pas de résultats fondamentalement différents et a priori pas plus "intéressants". K-means découpe la première composante en deux parties et regroupe des composantes constituées de citations. Statistica ajoute lie plus fréquemment les notes et citations aux articles dont elles sont issues.
|
(c) A. Favre, VisioSoft S.A. & L.-O. Pochon, IRDP, 2002