Description : Cette thèse s’inscrit dans le cadre du projet Prendre votre cœur en mains visant à
développer un dispositif médical d’aide à la prescription médicamenteuse pour les
insuffisants cardiaques. Dans une première partie, une étude a été menée afin de mettre
en évidence la valeur pronostique d’une estimation du volume plasmatique ou de ses
variations pour la prédiction des événements cardiovasculaires majeurs à court terme.
Deux règles de classification ont été utilisées, la régression logistique et l’analyse
discriminante linéaire, chacune précédée d’une phase de sélection pas à pas des variables.
Trois indices permettant de mesurer l’amélioration de la capacité de discrimination
par ajout du biomarqueur d’intérêt ont été utilisés. Dans une seconde partie, afin
d’identifier les patients à risque de décéder ou d’être hospitalisé pour progression
de l’insuffisance cardiaque à court terme, un score d’événement a été construit par
une méthode d’ensemble, en utilisant deux règles de classification, la régression
logistique et l’analyse discriminante linéaire de données mixtes, des échantillons
bootstrap et en sélectionnant aléatoirement les prédicteurs. Nous définissons une
mesure du risque d’événement par un odds-ratio et une mesure de l’importance des variables
et des groupes de variables. Nous montrons une propriété de l’analyse discriminante
linéaire de données mixtes. Cette méthode peut être mise en œuvre dans le cadre de
l’apprentissage en ligne, en utilisant des algorithmes de gradient stochastique pour
mettre à jour en ligne les prédicteurs. Nous traitons le problème de la régression
linéaire multidimensionnelle séquentielle, en particulier dans le cas d’un flux de
données, en utilisant un processus d’approximation stochastique. Pour éviter le phénomène
d’explosion numérique et réduire le temps de calcul pour prendre en compte un maximum
de données entrantes, nous proposons d’utiliser un processus avec des données standardisées
en ligne au lieu des données brutes et d’utiliser plusieurs observations à chaque
étape ou toutes les observations jusqu’à l’étape courante sans avoir à les stocker.
Nous définissons trois processus et en étudions la convergence presque sûre, un avec
un pas variable, un processus moyennisé avec un pas constant, un processus avec un
pas constant ou variable et l’utilisation de toutes les observations jusqu’à l’étape
courante. Ces processus sont comparés à des processus classiques sur 11 jeux de données.
Le troisième processus à pas constant est celui qui donne généralement les meilleurs
résultats;