Description : Dans le domaine de la génétique des maladies rares, l’analyse de l’exome, c’est-à-dire
le séquençage de toutes les parties codantes du génome (soit environ 23 000 gènes),
est un outil diagnostic répandu. Les données produites par ces analyses sont conséquentes,
il est difficile d’en extraire les variations pathogènes nécessaire au diagnostic.
Cette tâche est celle du généticien. Pour faciliter cette étape, les bioinformaticien
annotent ces données avec du savoir provenant de sources de données variées choisies
par les généticiens. Les généticiens dépendent donc des bio-informaticiens et ne sont
pas libres de tester simplement de nouvelles sources de données. Chaque base de données
ajoutée au processus d’annotation doit faire l’objet d’un développement de scripts
dédiés par le bio-informaticien. Les sources de données utilisées dépendent des habitudes
et des connaissances des généticiens, il n’est donc pas possible de prévoir lesquelles
seront utilisées. Enfin, le taux de renouvellement de ces sources de données est important,
car la génétique est un domaine de recherche actif où il est important d’avoir des
données à jour pour obtenir des diagnostics fiables.La tâche du Généticien Biologiste
est d’extraire d’une liste de plusieurs dizaines de milliers de variations celles
qui sont pathogènes. Il utilise pour cela des approches en filtres successifs, en
éliminant les variations qui ne répondent pas à des critères biologiques. Cette approche
est fastidieuse, le nombre de filtres étant important ; de plus, elle peut être source
de faux négatifs et oblige à de multiples réanalyses pour garantir un résultat exhaustif.Dans
ce travail, nous présentons deux contributions. La première est une approche de création
d’ontologies à partir d’exports de bases de données et du savoir du généticien. Nous
avons testé cette approche en deux temps, tout d’abord en vérifiant la validité de
la démarche, puis en créant un prototype (COPUNG) que nous avons fait tester à des
utilisateurs experts du domaine.[...];