Libellé préféré : fouille de données;

Définition CISMeF : L’exploration de données, connue aussi sous l'expression de fouille de données, forage de données, prospection de données, data mining, ou encore extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire un maximum de connaissances (source Wikipédia).;

Synonyme CISMeF : forage de données; extraction de connaissances à partir de données; data mining; prospection de données; exploration de données;

Hyponyme MeSH : Fouille de texte; Exploration de texte;

Lien Wikipédia vérifié : https://fr.wikipedia.org/wiki/Exploration de données;

Détails


Consulter ci-dessous une sélection des principales ressources :

Vous pouvez consulter :

L’exploration de données, connue aussi sous l'expression de fouille de données, forage de données, prospection de données, data mining, ou encore extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire un maximum de connaissances (source Wikipédia).

N1-VALIDE
https://www.cismef.org/cismef/wp/wp-content/uploads/2022/11/Donn%C3%A9es-en-anglais.pdf
Cours présenté par Arriel Benus et Stéfan Darmoni. Attributes and objects; what is data?; Data, information, knowledge; Attribute values; Measurement of length; Types of attributes; Properties of attribute values; Difference between ratio and interval; Transformation of attribute values; Discrete and continuous attributes; Critiques of the attribute categorization; Key messages for attribute types; Important characteristics of data; Types of data; Types of data sets; Record data; Data matrix; Document data; Transaction data; Ordered data; Graph data; Data quality; Definitions; Data quality...; Noise; Outliers; Missing values; Duplicate data
2022
false
false
false
false
true
Université de Rouen, UFR Santé
France
anglais
cours
fouille de données
fouille de données
Exactitude des données
Qualité des données

---
N3-AUTOINDEXEE
Exploration à base ontologique de données issues de patients atteints de maladies rares
http://www.theses.fr/2019POIT2333
Dans le domaine de la génétique des maladies rares, l’analyse de l’exome, c’est-à-dire le séquençage de toutes les parties codantes du génome (soit environ 23 000 gènes), est un outil diagnostic répandu. Les données produites par ces analyses sont conséquentes, il est difficile d’en extraire les variations pathogènes nécessaire au diagnostic. Cette tâche est celle du généticien. Pour faciliter cette étape, les bioinformaticien annotent ces données avec du savoir provenant de sources de données variées choisies par les généticiens. Les généticiens dépendent donc des bio-informaticiens et ne sont pas libres de tester simplement de nouvelles sources de données. Chaque base de données ajoutée au processus d’annotation doit faire l’objet d’un développement de scripts dédiés par le bio-informaticien. Les sources de données utilisées dépendent des habitudes et des connaissances des généticiens, il n’est donc pas possible de prévoir lesquelles seront utilisées. Enfin, le taux de renouvellement de ces sources de données est important, car la génétique est un domaine de recherche actif où il est important d’avoir des données à jour pour obtenir des diagnostics fiables.La tâche du Généticien Biologiste est d’extraire d’une liste de plusieurs dizaines de milliers de variations celles qui sont pathogènes. Il utilise pour cela des approches en filtres successifs, en éliminant les variations qui ne répondent pas à des critères biologiques. Cette approche est fastidieuse, le nombre de filtres étant important ; de plus, elle peut être source de faux négatifs et oblige à de multiples réanalyses pour garantir un résultat exhaustif.Dans ce travail, nous présentons deux contributions. La première est une approche de création d’ontologies à partir d’exports de bases de données et du savoir du généticien. Nous avons testé cette approche en deux temps, tout d’abord en vérifiant la validité de la démarche, puis en créant un prototype (COPUNG) que nous avons fait tester à des utilisateurs experts du domaine.[...]
2019
theses.fr
France
thèse ou mémoire
bases de données comme sujet
a comme patient
base
Maladies
sécurité informatique
dû à
Maladie rare
atteinte aux données
patients
Base de données
maladie
fouille de données
maladies rares

---
N2-AUTOINDEXEE
Du dossier résident informatisé à la recherche en santé publique : Application des méthodes de surveillance en temps réel à des données médico-sociales de la personne âgée et exploration de données de cohorte pour la santé publique.
http://www.theses.fr/2018SACLV030
La France connaît un vieillissement de sa population sans précédent. La part des séniors s’accroît et notre société se doit de repenser son organisation pour tenir compte de ce changement et mieux connaître cette population.De nombreuses cohortes de personnes âgées existent déjà à travers le monde dont quatre en France et, bien que la part de cette population vivant dans des structures d’hébergement collectif (EHPAD, cliniques de soins de suite) augmente, la connaissance de ces seniors reste lacunaire.Aujourd’hui les groupes privés de maisons de retraite et d’établissements sanitaires comme Korian ou Orpéa s’équipent de grandes bases de données relationnelles permettant d’avoir de l’information en temps réel sur leurs patients/résidents. Depuis 2010 les dossiers de tous les résidents Korian sont dématérialisés et accessibles par requêtes. Ils comprennent à la fois des données médico-sociales structurées décrivant les résidents et leurs traitements et pathologies, mais aussi des données textuelles explicitant leur prise en charge au quotidien et saisies par le personnel soignant.Au fil du temps et alors que le dossier résident informatisé (DRI) avait surtout été conçu comme une application de gestion de base de données, il est apparu comme une nécessité d’exploiter cette mine d’informations et de construire un outil d’aide à la décision destiné à améliorer l’efficacité des soins. L’Institut du Bien Vieillir IBV devenu entretemps la Fondation Korian pour le Bien Vieillir a alors choisi, dans le cadre d’un partenariat Public/Privé de financer un travail de recherche destiné à mieux comprendre le potentiel informatif de ces données, d’évaluer leur fiabilité et leur capacité à apporter des réponses en santé publique. Ce travail de recherche et plus particulièrement cette thèse a alors été pensée en plusieurs étapes.- D’abord l’analyse de contenu du data warehouse DRI, l’objectif étant de construire une base de données recherche, avec un versant social et un autre de santé. Ce fut le sujet du premier article.- Ensuite, par extraction directe des informations socio-démographiques des résidents dès leur entrée, de leurs hospitalisations et décès puis, par un processus itératif d’extractions d’informations textuelles de la table des transmissions et l’utilisation de la méthode Delphi, nous avons généré vingt-quatre syndromes, ajouté les hospitalisations et les décès et construit une base de données syndromique, la Base du Bien Vieillir (BBV) . Ce système d’informations d’un nouveau type a permis la constitution d’une cohorte de santé publique à partir de la population des résidents de la BBV et l’organisation d’un suivi longitudinal syndromique de celle-ci. La BBV a également été évaluée scientifiquement dans un cadre de surveillance et de recherche en santé publique au travers d’une analyse de l’existant : contenu, périodicité, qualité des données. La cohorte construite a ainsi permis la constitution d’un outil de surveillance. Cet échantillon de population a été suivi en temps réel au moyen des fréquences quotidiennes d’apparitions des 26 syndromes des résidents. La méthodologie d’évaluation était celle des systèmes de surveillance sanitaire proposée par le CDC d’Atlanta et a été utilisée pour les syndromes grippaux et les gastro entérites aiguës. Ce fut l’objet du second article.- Enfin la construction d’un nouvel outil de santé publique : la distribution de chacun des syndromes dans le temps (dates de transmissions) et l’espace (les EHPAD de transmissions) a ouvert le champ de la recherche à de nouvelles méthodes d’exploration des données et permis d’étudier plusieurs problématiques liées à la personne âgée : chutes répétées, cancer, vaccinations et fin de vie.
2018
theses.fr
France
thèse ou mémoire
sujet âgé de 80 ans ou plus
Applications
PERSONNE AGEE
ensemble de données
Recherches
Recherche
protestantisme
Santé publique
dossiers médicaux
fouille de données
sujet âgé
recherche biomédicale
personne âgée
informatique en santé publique
Applications
Applications
socialisme
Méthodes
sujet âgé de 80 ans ou plus
ensemble de données
recherche

---
N1-VALIDE
Outils statistiques du Data Mining
https://sesstim.univ-amu.fr/content/outils-statistiques-du-data-mining
sesstim.univ-amu.fr/sites/default/files/ressources_pedagogiques/outils-statistiques-dm-rg.pdf
Principe et outils statistiques du Data Mining
2017
false
false
false
false
false
SESSTIM
France
cours
fouille de données
statistiques
fouille de données

---
N1-VALIDE
Outils statistiques du Data Mining : Méthodes de Classification
https://sesstim.univ-amu.fr/content/outils-statistiques-du-data-mining-methodes-de-classification
sesstim.univ-amu.fr/sites/default/files/ressources_pedagogiques/classification-rg.pdf
Rechercher une segmentation, partition, des sujets en classes, catégories ; Optimisation d’un critère visant à regrouper les sujets dans des classes ; Homogénéité intra classe ; Hétérogénéité interclasse
2017
false
false
false
false
false
SESSTIM
France
fouille de données
fouille de données
statistiques
cours
fouille de données

---
N3-AUTOINDEXEE
Les étudiants de l’UNIL face au don du sang : une population pour explorer la pénurie.
https://www.revmed.ch/RMS/2016/RMS-N-533/Les-etudiants-de-l-UNIL-face-au-don-du-sang-une-population-pour-explorer-la-penurie
2016
false
RMS - Revue Médicale Suisse
Suisse
matériel enseignement
article de périodique
population
donneurs de sang
Face
fouille de données
étudiants
don de sang
étudiant
face
fouille de données

---
Nous contacter.
19/04/2024


[Accueil] [Haut de page]

© CHU de Rouen. Toute utilisation partielle ou totale de ce document doit mentionner la source.