Libellé préféré : fouille de données; 
Définition CISMeF : L’exploration de données, connue aussi sous l'expression de fouille de données, forage
               de données, prospection de données, data mining, ou encore extraction de connaissances
               à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à
               partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
               Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques
               diverses telles que les statistiques, l'intelligence artificielle ou l'informatique,
               pour construire des modèles à partir des données, c'est-à-dire trouver des structures
               intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire
               un maximum de connaissances (source Wikipédia).; Processus de recherche dans un ensemble de données destiné à détecter des corrélations
               cachées ou des informations nouvelles. Journal officiel du 27 février 2003; 
Synonyme CISMeF : forage de données; extraction de connaissances à partir de données; data mining; prospection de données; exploration de données; 
Hyponyme MeSH : Fouille de texte; Exploration de texte; 
Lien Wikipédia vérifié : https://fr.wikipedia.org/wiki/Exploration de données; 
         
         
            Identifiant d'origine : D057225; 
CUI UMLS : C1328866; 
 Alignements automatiques CISMeF supervisés Alignements automatiques CISMeF supervisés
 Alignements automatiques supervisés en BTNT Alignements automatiques supervisés en BTNT
 Alignements manuels CISMeF Alignements manuels CISMeF
 Concept(s) lié(s) au record Concept(s) lié(s) au record
 Correspondances UMLS (même concept) Correspondances UMLS (même concept)
 Liste des qualificatifs affiliables Liste des qualificatifs affiliables
 Type(s) sémantique(s) Type(s) sémantique(s)
 Voir aussi Voir aussi
 
         
         
         
         L’exploration de données, connue aussi sous l'expression de fouille de données, forage
            de données, prospection de données, data mining, ou encore extraction de connaissances
            à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à
            partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
            Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques
            diverses telles que les statistiques, l'intelligence artificielle ou l'informatique,
            pour construire des modèles à partir des données, c'est-à-dire trouver des structures
            intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire
            un maximum de connaissances (source Wikipédia).
Processus de recherche dans un ensemble de données destiné à détecter des corrélations
            cachées ou des informations nouvelles. Journal officiel du 27 février 2003
N1-VALIDE
https://www.cismef.org/cismef/wp/wp-content/uploads/2022/11/Donn%C3%A9es-en-anglais.pdf
Cours présenté par Arriel Benus et Stéfan Darmoni. Attributes and objects; what is
            data?; Data, information, knowledge; Attribute values; Measurement of length; Types
            of attributes; Properties of attribute values; Difference between ratio and interval;
            Transformation of attribute values; Discrete and continuous attributes; Critiques
            of the attribute categorization; Key messages for attribute types; Important characteristics
            of data; Types of data; Types of data sets; Record data; Data matrix; Document data;
            Transaction data; Ordered data; Graph data; Data quality; Definitions; Data quality...;
            Noise; Outliers; Missing values; Duplicate data
2022
false
false
false
false
true
Université de Rouen, UFR Santé
France
anglais
cours
fouille de données
fouille de données
Exactitude des données
Qualité des données
---
N3-AUTOINDEXEE
Exploration à base ontologique de données issues de patients atteints de maladies
            rares
http://www.theses.fr/2019POIT2333
Dans le domaine de la génétique des maladies rares, l’analyse de l’exome, c’est-à-dire
            le séquençage de toutes les parties codantes du génome (soit environ 23 000 gènes),
            est un outil diagnostic répandu. Les données produites par ces analyses sont conséquentes,
            il est difficile d’en extraire les variations pathogènes nécessaire au diagnostic.
            Cette tâche est celle du généticien. Pour faciliter cette étape, les bioinformaticien
            annotent ces données avec du savoir provenant de sources de données variées choisies
            par les généticiens. Les généticiens dépendent donc des bio-informaticiens et ne sont
            pas libres de tester simplement de nouvelles sources de données. Chaque base de données
            ajoutée au processus d’annotation doit faire l’objet d’un développement de scripts
            dédiés par le bio-informaticien. Les sources de données utilisées dépendent des habitudes
            et des connaissances des généticiens, il n’est donc pas possible de prévoir lesquelles
            seront utilisées. Enfin, le taux de renouvellement de ces sources de données est important,
            car la génétique est un domaine de recherche actif où il est important d’avoir des
            données à jour pour obtenir des diagnostics fiables.La tâche du Généticien Biologiste
            est d’extraire d’une liste de plusieurs dizaines de milliers de variations celles
            qui sont pathogènes. Il utilise pour cela des approches en filtres successifs, en
            éliminant les variations qui ne répondent pas à des critères biologiques. Cette approche
            est fastidieuse, le nombre de filtres étant important ; de plus, elle peut être source
            de faux négatifs et oblige à de multiples réanalyses pour garantir un résultat exhaustif.Dans
            ce travail, nous présentons deux contributions. La première est une approche de création
            d’ontologies à partir d’exports de bases de données et du savoir du généticien. Nous
            avons testé cette approche en deux temps, tout d’abord en vérifiant la validité de
            la démarche, puis en créant un prototype (COPUNG) que nous avons fait tester à des
            utilisateurs experts du domaine.[...]
2019
theses.fr
France
thèse ou mémoire
bases de données comme sujet
a comme patient
base
Maladies
sécurité informatique
dû à
Maladie rare
atteinte aux données
patients
Base de données
maladie
fouille de données
maladies rares
---
N2-AUTOINDEXEE
Du dossier résident informatisé à la recherche en santé publique : Application des
            méthodes de surveillance en temps réel à des données médico-sociales de la personne
            âgée et exploration de données de cohorte pour la santé publique.
http://www.theses.fr/2018SACLV030
La France connaît un vieillissement de sa population sans précédent. La part des séniors
            s’accroît et notre société se doit de repenser son organisation pour tenir compte
            de ce changement et mieux connaître cette population.De nombreuses cohortes de personnes
            âgées existent déjà à travers le monde dont quatre en France et, bien que la part
            de cette population vivant dans des structures d’hébergement collectif (EHPAD, cliniques
            de soins de suite) augmente, la connaissance de ces seniors reste lacunaire.Aujourd’hui
            les groupes privés de maisons de retraite et d’établissements sanitaires comme Korian
            ou Orpéa s’équipent de grandes bases de données relationnelles permettant d’avoir
            de l’information en temps réel sur leurs patients/résidents. Depuis 2010 les dossiers
            de tous les résidents Korian sont dématérialisés et accessibles par requêtes. Ils
            comprennent à la fois des données médico-sociales structurées décrivant les résidents
            et leurs traitements et pathologies, mais aussi des données textuelles explicitant
            leur prise en charge au quotidien et saisies par le personnel soignant.Au fil du temps
            et alors que le dossier résident informatisé (DRI) avait surtout été conçu comme une
            application de gestion de base de données, il est apparu comme une nécessité d’exploiter
            cette mine d’informations et de construire un outil d’aide à la décision destiné à
            améliorer l’efficacité des soins. L’Institut du Bien Vieillir IBV devenu entretemps
            la Fondation Korian pour le Bien Vieillir a alors choisi, dans le cadre d’un partenariat
            Public/Privé de financer un travail de recherche destiné à mieux comprendre le potentiel
            informatif de ces données, d’évaluer leur fiabilité et leur capacité à apporter des
            réponses en santé publique. Ce travail de recherche et plus particulièrement cette
            thèse a alors été pensée en plusieurs étapes.- D’abord l’analyse de contenu du data
            warehouse DRI, l’objectif étant de construire une base de données recherche, avec
            un versant social et un autre de santé. Ce fut le sujet du premier article.- Ensuite,
            par extraction directe des informations socio-démographiques des résidents dès leur
            entrée, de leurs hospitalisations et décès puis, par un processus itératif d’extractions
            d’informations textuelles de la table des transmissions et l’utilisation de la méthode
            Delphi, nous avons généré vingt-quatre syndromes, ajouté les hospitalisations et les
            décès et construit une base de données syndromique, la Base du Bien Vieillir (BBV)
            . Ce système d’informations d’un nouveau type a permis la constitution d’une cohorte
            de santé publique à partir de la population des résidents de la BBV et l’organisation
            d’un suivi longitudinal syndromique de celle-ci. La BBV a également été évaluée scientifiquement
            dans un cadre de surveillance et de recherche en santé publique au travers d’une analyse
            de l’existant : contenu, périodicité, qualité des données. La cohorte construite a
            ainsi permis la constitution d’un outil de surveillance. Cet échantillon de population
            a été suivi en temps réel au moyen des fréquences quotidiennes d’apparitions des 26
            syndromes des résidents. La méthodologie d’évaluation était celle des systèmes de
            surveillance sanitaire proposée par le CDC d’Atlanta et a été utilisée pour les syndromes
            grippaux et les gastro entérites aiguës. Ce fut l’objet du second article.- Enfin
            la construction d’un nouvel outil de santé publique : la distribution de chacun des
            syndromes dans le temps (dates de transmissions) et l’espace (les EHPAD de transmissions)
            a ouvert le champ de la recherche à de nouvelles méthodes d’exploration des données
            et permis d’étudier plusieurs problématiques liées à la personne âgée : chutes répétées,
            cancer, vaccinations et fin de vie.
2018
theses.fr
France
thèse ou mémoire
sujet âgé de 80 ans ou plus
Applications
PERSONNE AGEE
ensemble de données
Recherches
Recherche
protestantisme
Santé publique
dossiers médicaux
fouille de données
sujet âgé
recherche biomédicale
personne âgée
informatique en santé publique
Applications
Applications
socialisme
Méthodes
sujet âgé de 80 ans ou plus
ensemble de données
recherche
---
N1-VALIDE
Outils statistiques du Data Mining
https://sesstim.univ-amu.fr/content/outils-statistiques-du-data-mining
sesstim.univ-amu.fr/sites/default/files/ressources_pedagogiques/outils-statistiques-dm-rg.pdf
Principe et outils statistiques du Data Mining
2017
false
false
false
false
false
SESSTIM
France
cours
fouille de données
statistiques
fouille de données
---
N1-VALIDE
Outils statistiques du Data Mining : Méthodes de Classification
https://sesstim.univ-amu.fr/content/outils-statistiques-du-data-mining-methodes-de-classification
sesstim.univ-amu.fr/sites/default/files/ressources_pedagogiques/classification-rg.pdf
Rechercher une segmentation, partition, des sujets en classes, catégories ; Optimisation
            d’un critère visant à regrouper les sujets dans des classes ; Homogénéité intra classe
            ; Hétérogénéité interclasse
2017
false
false
false
false
false
SESSTIM
France
fouille de données
fouille de données
statistiques
cours
fouille de données
---
N3-AUTOINDEXEE
Les étudiants de l’UNIL face au don du sang : une population pour explorer la pénurie.
https://www.revmed.ch/RMS/2016/RMS-N-533/Les-etudiants-de-l-UNIL-face-au-don-du-sang-une-population-pour-explorer-la-penurie
2016
false
RMS - Revue Médicale Suisse
Suisse
matériel enseignement
article de périodique
population
donneurs de sang
Face
fouille de données
étudiants
don de sang
étudiant
face
fouille de données
---