Un des rôles fondamentaux du maître-toile est de mesurer avec précision le site dont il est responsable, en choisissant des critères reproductibles. Nous en avons identifié deux principaux dans le Net Scoring : par unité de temps, il faut mesurer le nombre de pages HTML lues et le nombre de machines, en excluant les machines du site. Mais d’autres critères doivent être étudiés, selon la structuration du site. Par exemple, pour les sites dynamiques, le critère « Nombre de pages HTML lues » doit être remplacé par le critère « Nombre de requêtes ».
Le nombre de machines qui visitent le site par unité de temps est un critère utilisé pour tenter de mesurer le nombre de personnes qui consultent le site. Étant donné qu’il est difficile (y compris sur le plan éthique) de récupérer le courriel de la personne visitant le site, on utilise plus communément l’adresse IP des machines. Ce critère a le mérite d’être plus anonyme que le précédent. Si deux personnes utilisent la même machine, ce critère ne mesure qu’une seule machine. Du fait de la prolifération des machines « proxy », il existe une sous-estimation du nombre de personnes utilisant le site, autrement dit une sous-estimation du trafic engendré par la consultation du site, mais elle est la même pour tous les sites. Ainsi, pour tous les centres hospitaliers qui possèdent un proxy, la conséquence en termes statistiques est qu’une seule machine est identifiée au lieu de N.
Le second critère retenu est le nombre de documents visualisés dans la même unité de temps. Ce chiffre permet également de quantifier le trafic engendré par la consultation du site. Par « document », on entend « document HTML » ou « document PDF » (Portable Document Format), en éliminant notamment les fichiers image (au format GIF, JPEG, BMP ou d’autres) qui font généralement augmenter de manière exagérée ce nombre de documents. Les Anglo-saxons utilisent le terme non spécifique de « hits » qui incluent tous les fichiers, c’est-à-dire les documents qu’ils soient au format HTML ou PDF ainsi que tous les fichiers image, quel que soit leur format. Néanmoins, en cas de banques d’images, il est important que le maître-toile ait une vision exacte des statistiques sur les fichiers images, car ces images portent en tant que tel une valeur informationnelle.
Pour le site Web du CHU de Rouen, en mars 2000, environ 15.000 machines différentes (après exclusion des machines provenant du CHU) ont visité notre site chaque jour ouvré. Pour tenter d’estimer le nombre de personnes à partir du nombre de machines, nous avons pris comme option (paramétrage du logiciel de statistiques) qu’une machine restant connecté plus d’1/2 heure sur notre site génère une » session » supplémentaire. C’est le nombre de » sessions » qui nous permet d’estimer le nombre de personnes visitant notre site. En mars 2000, le nombre de » sessions » représentant par extrapolation le nombre de personnes se connectant sur notre site, est d’environ 20.000 par jour ouvré. Nous utilisons avec parcimonie le concept de » hits « , qui recouvrent indifféremment tous les fichiers chargés au cours d’une visite de site. Pour en savoir plus, voir ici.
Conformément au Net Scoring, nous utilisons le Web Impact Factor (WIF) qui est le nombre de sites ayant au moins un hyper-lien vers le site du maître-toile [Ingwersen98], pour quantifier indirectement l’impact d’un site. Le WIF du site du CHU de Rouen est de plus de 800 sites, (après exclusion des sites personnels), dont certains sites-catalogue prestigieux [voir http://www.chu-rouen.fr/dsii/html/pointeur.html]. Une autre façon de quantifier l’impact d’un site est d’utiliser un moteur de recherche pour connaître le WIF, non plus en terme de sites, mais en terme de page. Nous utilisons sur Alta-Vista la requête générique suivante qui élimine les hyper-liens internes : +link:nom-de-domaine.code-pays –url:nom-de-domaine.code-pays, soit pour le CHU de Rouen, +link:chu-rouen.fr –url:chu-rouen.fr. Nous définissons ainsi le WIF absolu. Celui du CHU de Rouen est de 7.987. Le WIF relatif est un ratio entre le WIF absolu et le nombre de pages du site étudié présent dans le moteur de recherche. Sa formules est (+link:nom-de-domaine.code-pays –url:nom-de-domaine.code-pays)/+url:nom-de-domaine.code-pays. Le WIF relatif du CHU de Rouen est : 7.987/5.551 soit 1,44.
Alta-Vista indique plus de 2.800 pages qui pointent sur notre site.
Le maître-toile doit effectuer régulièrement une revue de presse, toujours pour mesurer l’impact de son site. Plus de 140 citations sont parues dans la presse au sujet du site rouennais. De plus, nous avons relevé quatre études successives du CESIM (Centre d’Etudes sur le Support de l’Information Médicale) en mars 1998, octobre 1998, mars 1999 et janvier 2000 qui ont montré que le site Web du CHU est le plus utilisé par les médecins généralistes français, représentant respectivement 10, 17,7 et 11,5% des sites utilisés pour les trois premiers, et en second pour début 2000 avec 2,9%. Le baromètre Sethos-Pharmaceutiques, en février 2003, a permis de constater que le site du CHU de Rouen est le quatrième site le plus consulté par les médecins généralistes (et troisième site institutionnel) avec 20 % d’audience (étude réalisée auprès de 401 médecins généralistes internautes). En revanche, une étude parallèle du CESIM en mars 1999 auprès des médecins spécialistes français plaçait le CHU de Rouen en 11ème position avec 2,4% des suffrages. Il a également été considéré comme le meilleur site français par un sondage du Quotidien du Médecin en 1997. En octobre 2000, l’étude FORMELL sur « l’Apport de l’informatique dans la pratique médicale » réalisée sur un échantillon de 2 462 médecins ayant terminé l’enquête, signale 200 bases de données citées par les médecins. Dans l’ordre : CHU Rouen, Medline, CHU Rennes, Vidal, ANAES, CNOM.
Dernier élément pour mesurer quantitativement un site, nous avons inclus dans le nôtre la liste des publications scientifiques produites par les équipes du site à son propos [voir http://www.chu-rouen.fr/general/pubweb.html].
D’une manière plus générale, les statistiques d’utilisation permettent une gestion affinée d’un site, en connaissant notamment l’origine géographique des visiteurs, et les documents qu’ils visualisent le plus. Sur le site du CHU de Rouen, seulement 34,61% des machines sont en provenance de France (mais 43% des sessions, et 57% des hits), 23,48% des Etats-Unis (ou identifiées comme telles car se terminant par .com, .net, .org, .edu, et .gov), 8,03% du Canada, 3,33% de la Belgique, 2,50% de la Suisse et malheureusement seulement 0,29% en provenance de 14 pays du continent africain ; la localisation géographique des machines connectées à notre site n’a pu être déterminée dans 24,05% des cas (adresse IP sans nom de domaine). Parmi l’ensemble des machines connectées au site Web du CHU de Rouen, nous avons détecté en novembre 1999 10,63 % d’abonnés de Wanadoo, 7,77 % d’AOL, et 3,36 % de Club-Internet ; enfin, 2,3 % des utilisateurs de notre site Web utilisent un modem-câble.
Le maître-toile doit étudier le rapport coût/efficacité des documents présents sur le site. Il doit notamment tenir compte des pages les plus vues, qui doivent être encore plus irréprochables par rapport au Net Scoring. Nous listons dans le tableau 2 les principales pages visualisées de notre site. Le succès de certaines pages peut rester sans explication : ainsi, nous n’en avons trouvé aucune concernant le nombre de visiteurs toujours croissant de la page Bibliothèque du CHU. En revanche, il doit se poser la question de la nécessité de maintenir sur le site des pages très chronophages en terme de gestion, comme par exemple la page WIF, surtout si on la compare à la requête Alta-Vista qui ne nécessite pas de maintenance.
Enfin, le maître-toile doit surveiller quelques éléments plus techniques concernant la place disque voire le trafic engendré sur le réseau interne de sa structure. Ainsi, le site Web du CHU de Rouen contenait ainsi, en mai 1999, 4287 fichiers (2869 HTML, 1159 GIF et 258 JPG) et 62,3 Mo d’espace disque. Le trafic engendré sur le réseau du CHU de Rouen par les différents protocoles de l’Internet, essentiellement smtp et http, ne représentent suivant les jours que 0,3 à 1,5% de la charge réseau (en moyenne quotidienne), ce que nous avons considéré comme négligeable.
Le maître-toile doit également vérifier régulièrement la validité des hyper-liens de son site. Le site du CHU de Rouen contenant 13.605 hyper-liens (dont 3.687 hyper-liens internes), nous lançons tous les trois mois une vérification globale de tous nos hyper-liens avec le logiciel Linkbot Pro 5.
Des commentaires qualitatifs sur l’utilisation du site ont été recueillis auprès de médecins généralistes à l’occasion d’une thèse sur le rôle d’Internet dans le relation médecins-patients [Hennebo2008].
Mise à jour : février 2008