Description : Les données cliniques sont produites par différents professionnels de santé, dans
divers lieux et sous diverses formes dans le cadre de la pratique de la médecine.
Elles présentent par conséquent une hétérogénéité à la fois au niveau de leur nature
et de leur structure mais également une volumétrie particulièrement importante et
qualifiable de massive. Le travail réalisé dans le cadre de cette thèse s’attache
à proposer une méthode de recherche d’information efficace au sein de ce type de données
complexes et massives. L’accès aux données cliniques se heurte en premier lieu à la
nécessité de modéliser l’information clinique. Ceci peut notamment être réalisé au
sein du dossier patient informatisé ou, dans une plus large mesure, au sein d’entrepôts
de données. Je propose dans ce mémoire une preuve de concept d’un moteur de recherche
permettant d’accéder à l’information contenue au sein de l’entrepôt de données de
santé sémantique du Centre Hospitalier Universitaire de Rouen. Grâce à un modèle de
données générique, cet entrepôt adopte une vision de l’information assimilable à un
graphe de données rendant possible la modélisation de cette information tout en préservant
sa complexité conceptuelle. Afin de fournir des fonctionnalités de recherche adaptées
à cette représentation générique, un langage de requêtes permettant l’accès à l’information
clinique par le biais des diverses entités qui la composent a été développé et implémenté
dans le cadre de cette thèse. En second lieu, la massivité des données cliniques constitue
un défi technique majeur entravant la mise en oeuvre d’une recherche d’information
efficace. L’implémentation initiale de la preuve de concept sur un système de gestion
de base de données relationnel a permis d’objectiver les limites de ces derniers en
terme de performances. Une migration vers un système NoSQL orienté clé-valeur a été
réalisée. Bien qu’offrant de bonnes performances d’accès atomique aux données, cette
migration a également nécessité des développements annexes et la définition d’une
architecture matérielle et applicative propice à la mise en oeuvre des fonctionnalités
de recherche et d’accès aux données. Enfin, l’apport de ce travail dans le contexte
plus général de l’entrepôt de données de santé sémantique du CHU de Rouen a été évalué.
La preuve de concept proposée dans ce travail a ainsi été exploitée pour accéder aux
descriptions sémantiques afin de répondre à des critères d’inclusion et d’exclusion
de patients dans des études cliniques. Dans cette évaluation, une réponse totale ou
partielle a pu être apportée à 72,97% des critères. De plus, la généricité de l’outil
a également permis de l’exploiter dans d’autres contextes tels que la recherche d’information
documentaire et bibliographique en santé.;