Libellé préféré : fouille de données;
Définition CISMeF : L’exploration de données, connue aussi sous l'expression de fouille de données, forage
de données, prospection de données, data mining, ou encore extraction de connaissances
à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à
partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques
diverses telles que les statistiques, l'intelligence artificielle ou l'informatique,
pour construire des modèles à partir des données, c'est-à-dire trouver des structures
intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire
un maximum de connaissances (source Wikipédia).; Processus de recherche dans un ensemble de données destiné à détecter des corrélations
cachées ou des informations nouvelles. Journal officiel du 27 février 2003;
Synonyme CISMeF : forage de données; extraction de connaissances à partir de données; data mining; prospection de données; exploration de données;
Hyponyme MeSH : Fouille de texte; Exploration de texte;
Lien Wikipédia vérifié : https://fr.wikipedia.org/wiki/Exploration de données;
Identifiant d'origine : D057225;
CUI UMLS : C1328866;
Alignements automatiques CISMeF supervisés
Alignements automatiques supervisés en BTNT
Alignements manuels CISMeF
Concept(s) lié(s) au record
Correspondances UMLS (même concept)
Liste des qualificatifs affiliables
Type(s) sémantique(s)
Voir aussi
L’exploration de données, connue aussi sous l'expression de fouille de données, forage
de données, prospection de données, data mining, ou encore extraction de connaissances
à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à
partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques
diverses telles que les statistiques, l'intelligence artificielle ou l'informatique,
pour construire des modèles à partir des données, c'est-à-dire trouver des structures
intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire
un maximum de connaissances (source Wikipédia).
Processus de recherche dans un ensemble de données destiné à détecter des corrélations
cachées ou des informations nouvelles. Journal officiel du 27 février 2003
N1-VALIDE
https://www.cismef.org/cismef/wp/wp-content/uploads/2022/11/Donn%C3%A9es-en-anglais.pdf
Cours présenté par Arriel Benus et Stéfan Darmoni. Attributes and objects; what is
data?; Data, information, knowledge; Attribute values; Measurement of length; Types
of attributes; Properties of attribute values; Difference between ratio and interval;
Transformation of attribute values; Discrete and continuous attributes; Critiques
of the attribute categorization; Key messages for attribute types; Important characteristics
of data; Types of data; Types of data sets; Record data; Data matrix; Document data;
Transaction data; Ordered data; Graph data; Data quality; Definitions; Data quality...;
Noise; Outliers; Missing values; Duplicate data
2022
false
false
false
false
true
Université de Rouen, UFR Santé
France
anglais
cours
fouille de données
fouille de données
Exactitude des données
Qualité des données
---
N3-AUTOINDEXEE
Exploration à base ontologique de données issues de patients atteints de maladies
rares
http://www.theses.fr/2019POIT2333
Dans le domaine de la génétique des maladies rares, l’analyse de l’exome, c’est-à-dire
le séquençage de toutes les parties codantes du génome (soit environ 23 000 gènes),
est un outil diagnostic répandu. Les données produites par ces analyses sont conséquentes,
il est difficile d’en extraire les variations pathogènes nécessaire au diagnostic.
Cette tâche est celle du généticien. Pour faciliter cette étape, les bioinformaticien
annotent ces données avec du savoir provenant de sources de données variées choisies
par les généticiens. Les généticiens dépendent donc des bio-informaticiens et ne sont
pas libres de tester simplement de nouvelles sources de données. Chaque base de données
ajoutée au processus d’annotation doit faire l’objet d’un développement de scripts
dédiés par le bio-informaticien. Les sources de données utilisées dépendent des habitudes
et des connaissances des généticiens, il n’est donc pas possible de prévoir lesquelles
seront utilisées. Enfin, le taux de renouvellement de ces sources de données est important,
car la génétique est un domaine de recherche actif où il est important d’avoir des
données à jour pour obtenir des diagnostics fiables.La tâche du Généticien Biologiste
est d’extraire d’une liste de plusieurs dizaines de milliers de variations celles
qui sont pathogènes. Il utilise pour cela des approches en filtres successifs, en
éliminant les variations qui ne répondent pas à des critères biologiques. Cette approche
est fastidieuse, le nombre de filtres étant important ; de plus, elle peut être source
de faux négatifs et oblige à de multiples réanalyses pour garantir un résultat exhaustif.Dans
ce travail, nous présentons deux contributions. La première est une approche de création
d’ontologies à partir d’exports de bases de données et du savoir du généticien. Nous
avons testé cette approche en deux temps, tout d’abord en vérifiant la validité de
la démarche, puis en créant un prototype (COPUNG) que nous avons fait tester à des
utilisateurs experts du domaine.[...]
2019
theses.fr
France
thèse ou mémoire
bases de données comme sujet
a comme patient
base
Maladies
sécurité informatique
dû à
Maladie rare
atteinte aux données
patients
Base de données
maladie
fouille de données
maladies rares
---
N2-AUTOINDEXEE
Du dossier résident informatisé à la recherche en santé publique : Application des
méthodes de surveillance en temps réel à des données médico-sociales de la personne
âgée et exploration de données de cohorte pour la santé publique.
http://www.theses.fr/2018SACLV030
La France connaît un vieillissement de sa population sans précédent. La part des séniors
s’accroît et notre société se doit de repenser son organisation pour tenir compte
de ce changement et mieux connaître cette population.De nombreuses cohortes de personnes
âgées existent déjà à travers le monde dont quatre en France et, bien que la part
de cette population vivant dans des structures d’hébergement collectif (EHPAD, cliniques
de soins de suite) augmente, la connaissance de ces seniors reste lacunaire.Aujourd’hui
les groupes privés de maisons de retraite et d’établissements sanitaires comme Korian
ou Orpéa s’équipent de grandes bases de données relationnelles permettant d’avoir
de l’information en temps réel sur leurs patients/résidents. Depuis 2010 les dossiers
de tous les résidents Korian sont dématérialisés et accessibles par requêtes. Ils
comprennent à la fois des données médico-sociales structurées décrivant les résidents
et leurs traitements et pathologies, mais aussi des données textuelles explicitant
leur prise en charge au quotidien et saisies par le personnel soignant.Au fil du temps
et alors que le dossier résident informatisé (DRI) avait surtout été conçu comme une
application de gestion de base de données, il est apparu comme une nécessité d’exploiter
cette mine d’informations et de construire un outil d’aide à la décision destiné à
améliorer l’efficacité des soins. L’Institut du Bien Vieillir IBV devenu entretemps
la Fondation Korian pour le Bien Vieillir a alors choisi, dans le cadre d’un partenariat
Public/Privé de financer un travail de recherche destiné à mieux comprendre le potentiel
informatif de ces données, d’évaluer leur fiabilité et leur capacité à apporter des
réponses en santé publique. Ce travail de recherche et plus particulièrement cette
thèse a alors été pensée en plusieurs étapes.- D’abord l’analyse de contenu du data
warehouse DRI, l’objectif étant de construire une base de données recherche, avec
un versant social et un autre de santé. Ce fut le sujet du premier article.- Ensuite,
par extraction directe des informations socio-démographiques des résidents dès leur
entrée, de leurs hospitalisations et décès puis, par un processus itératif d’extractions
d’informations textuelles de la table des transmissions et l’utilisation de la méthode
Delphi, nous avons généré vingt-quatre syndromes, ajouté les hospitalisations et les
décès et construit une base de données syndromique, la Base du Bien Vieillir (BBV)
. Ce système d’informations d’un nouveau type a permis la constitution d’une cohorte
de santé publique à partir de la population des résidents de la BBV et l’organisation
d’un suivi longitudinal syndromique de celle-ci. La BBV a également été évaluée scientifiquement
dans un cadre de surveillance et de recherche en santé publique au travers d’une analyse
de l’existant : contenu, périodicité, qualité des données. La cohorte construite a
ainsi permis la constitution d’un outil de surveillance. Cet échantillon de population
a été suivi en temps réel au moyen des fréquences quotidiennes d’apparitions des 26
syndromes des résidents. La méthodologie d’évaluation était celle des systèmes de
surveillance sanitaire proposée par le CDC d’Atlanta et a été utilisée pour les syndromes
grippaux et les gastro entérites aiguës. Ce fut l’objet du second article.- Enfin
la construction d’un nouvel outil de santé publique : la distribution de chacun des
syndromes dans le temps (dates de transmissions) et l’espace (les EHPAD de transmissions)
a ouvert le champ de la recherche à de nouvelles méthodes d’exploration des données
et permis d’étudier plusieurs problématiques liées à la personne âgée : chutes répétées,
cancer, vaccinations et fin de vie.
2018
theses.fr
France
thèse ou mémoire
sujet âgé de 80 ans ou plus
Applications
PERSONNE AGEE
ensemble de données
Recherches
Recherche
protestantisme
Santé publique
dossiers médicaux
fouille de données
sujet âgé
recherche biomédicale
personne âgée
informatique en santé publique
Applications
Applications
socialisme
Méthodes
sujet âgé de 80 ans ou plus
ensemble de données
recherche
---
N1-VALIDE
Outils statistiques du Data Mining
https://sesstim.univ-amu.fr/content/outils-statistiques-du-data-mining
sesstim.univ-amu.fr/sites/default/files/ressources_pedagogiques/outils-statistiques-dm-rg.pdf
Principe et outils statistiques du Data Mining
2017
false
false
false
false
false
SESSTIM
France
cours
fouille de données
statistiques
fouille de données
---
N1-VALIDE
Outils statistiques du Data Mining : Méthodes de Classification
https://sesstim.univ-amu.fr/content/outils-statistiques-du-data-mining-methodes-de-classification
sesstim.univ-amu.fr/sites/default/files/ressources_pedagogiques/classification-rg.pdf
Rechercher une segmentation, partition, des sujets en classes, catégories ; Optimisation
d’un critère visant à regrouper les sujets dans des classes ; Homogénéité intra classe
; Hétérogénéité interclasse
2017
false
false
false
false
false
SESSTIM
France
fouille de données
fouille de données
statistiques
cours
fouille de données
---
N3-AUTOINDEXEE
Les étudiants de l’UNIL face au don du sang : une population pour explorer la pénurie.
https://www.revmed.ch/RMS/2016/RMS-N-533/Les-etudiants-de-l-UNIL-face-au-don-du-sang-une-population-pour-explorer-la-penurie
2016
false
RMS - Revue Médicale Suisse
Suisse
matériel enseignement
article de périodique
population
donneurs de sang
Face
fouille de données
étudiants
don de sang
étudiant
face
fouille de données
---