Une sélection de ressources (articles scientifiques, billets et autres liens) en lien avec les thématiques du DéSaN : entrepôts de données de santé, modèles de langage et, plus généralement, sciences de l’information dans le domaine de la santé. Ces ressources ont été repérées durant le mois de mars 2025.
Cette veille existe également sous la forme de pages Wakelet et Zotero.
Thèmes Principaux et Idées Clés (réalisé avec Google NotebookLM) :
1. Impact de l’Automatisation et des LLMs sur la Recherche d’Information :
- Filtrage et Biais dans les Bases de Données : L’étude d’Askin et al. (2025) souligne les défis de l’indexation automatisée dans Medline, montrant une proportion significative d’enregistrements inclus qui ne concernent pas des études humaines (e.g., études animales, contextes agricoles ou vétérinaires). Cela met en évidence le risque de « filtering failure » et la nécessité d’améliorer les méthodes pour cibler précisément les études pertinentes. Par exemple, l’étude révèle que « Includes animal study » représente une part importante des enregistrements inclus.
- Limitations des LLMs comme Moteurs de Recherche Autonomes : Bouchard (2025) insiste sur le fait que les grands modèles de langage (LLMs) comme ChatGPT ne sont pas conçus pour remplacer seuls les moteurs de recherche traditionnels. Contrairement à ces derniers, ils ne s’appuient pas sur des index préconstruits pour fournir des réponses sourcées individuellement. L’auteur note : « En aucun cas, ces techniques de LLM n’ont été pensées pour remplacer, seules, Google. »
- Compréhension de l’Intention de l’Utilisateur par les LLMs : Cependant, Bouchard observe que les LLMs progressent dans leur capacité à distinguer l’intention des requêtes (recherche d’information vs. réalisation d’une tâche).
- Défis Sémantiques et Épistémiques : La source soulève des questions cruciales pour la recherche d’information, notamment la variabilité sémantique et épistémique du vocabulaire entre domaines et écoles de pensée, ainsi que le rôle de l’expertise humaine.
- Crédibilité et Citation des IA : Bouchard met en garde contre la citation ou le crédit des IA, soulignant qu’elles n’ont pas d’autorité épistémique et ne sont pas propriétaires de leurs productions. Les usages substantiels de LLMs dans la production de contenu doivent être déclarés avec transparence et documentation (nom, version, date).
2. Utilisation et Évaluation des Modèles de Langage (LLMs) en Biomédecine :
- Synthèse de Données et Extraction d’Information : L’étude de Liu (2025) évalue la performance du modèle Claude pour l’extraction de données spécifiques à partir d’articles de recherche. Les résultats montrent des taux d’extraction corrects variables selon les items, avec certains items atteignant 100% de précision (« Study ID », « Aim of study »), tandis que d’autres sont plus difficiles (« Assessed for eligibility »). Le tableau 1 détaille la précision par item et les intervalles de confiance.
- Génération de Données Synthétiques : Plusieurs sources (Bornet 2025, Ibrahim 2025, Guide Inserm 2025) abordent l’utilisation de l’IA pour générer des données synthétiques en biomédecine. Bornet (2025) explore l’utilisation de FastText pour encoder des terminologies médicales hiérarchiques comme ICD-10 et ATC, en capturant des informations subword. Ibrahim (2025) offre une revue extensive des techniques de synthèse de données (GANs, VAEs, modèles de diffusion, LLMs) appliquées à différents types de données biomédicales (imagerie, données EHR, signaux, textes). Le Guide Inserm (2025) souligne le potentiel des données synthétiques pour surmonter les problèmes de confidentialité et les biais dans les données d’entraînement des LLMs.
- Évaluation des LLMs en Contexte Médical : Xie (2025) compare les performances de différents LLMs (LLaMA2, PMC-LLaMA, Me-LLaMA, Meditron) sur diverses tâches biomédicales (question-réponse, reconnaissance d’entités nommées, extraction de relations, classification, summarisation, inférence en langage naturel). Les résultats montrent des variations significatives de performance selon le modèle et la tâche. Singhal (2025) évalue Med-PaLM 2 sur le benchmark MMLU (Massive Multitask Language Understanding) pour les connaissances médicales.
- Défis d’Évaluation : Ibrahim (2025) identifie le manque de cadres d’évaluation robustes comme un défi majeur, soulignant le besoin de benchmarks cross-modalités, de métriques de diversité et de validation clinique à grande échelle. Les tableaux 16 et 17 listent diverses métriques de fidélité utilisées pour évaluer les données synthétiques.
- Compréhension des Principes Médicaux : Ibrahim (2025) note que les générateurs de textes médicaux avancés basés sur des LLMs généraux peuvent ne pas saisir pleinement les principes ou la logique sous-jacente des connaissances médicales.
3. Application des LLMs à la sélection de résumés (Abstract Screening) :
- Haute Performance Potentielle : L’étude de Sanghera et al. (2025) examine l’utilisation d’ensembles de LLMs pour l’écran automatisé d’abstracts. Les résultats suggèrent que les LLMs peuvent atteindre une haute performance, comparable voire supérieure à celle des chercheurs humains pour cette tâche. La Figure 1 compare la précision et le rappel de différents LLMs avec diverses invites.
- Consistance des Décisions des LLMs : Les LLMs ont montré une haute consistance interne (mesurée par le coefficient Kappa), souvent supérieure à celle des chercheurs humains effectuant la même tâche.
- Rôle du « Prompt Engineering » : La performance des LLMs est fortement influencée par la formulation de l’invite (« prompt »). L’étude a exploré l’impact de différentes invites biaisées vers l’inclusion.
- Ensembles de LLMs : La combinaison de plusieurs LLMs en ensembles (parallèles ou en série) a permis d’améliorer la sensibilité tout en maintenant une précision raisonnable, réduisant potentiellement la charge de travail du criblage manuel. Le Tableau 4 présente la performance des ensembles optimaux de LLMs.
4. Enjeux Éthiques, Sociaux et Environnementaux de l’IA en Santé :
- Biais et Hallucinations : Le Guide Inserm (2025) met en garde contre les risques de biais et d’hallucinations liés à la langue utilisée ou à la voix dans les applications d’IA.
- Dépendance aux Systèmes Propriétaires : L’augmentation du recours à l’IA peut entraîner une dépendance accrue à des systèmes propriétaires, avec des logiques potentiellement incompatibles avec les bonnes pratiques scientifiques (consentement, propriété intellectuelle, citation, vérification des résultats).
- Impact Écologique : La consommation énergétique et hydrique des grands systèmes d’IA est un enjeu majeur soulevé par le Guide Inserm (2025), avec des chiffres alarmants sur l’augmentation de cette consommation. L’importance de la « frugalité » et de la « sobriété » dans le développement et l’utilisation de l’IA est soulignée.
- Souveraineté Numérique et Protection de la Vie Privée : Le Guide Inserm (2025) discute des avantages potentiels des « Small Language Models » (SLMs) en termes de souveraineté numérique et de respect de la vie privée, car ils peuvent être plus faciles à contrôler et à sécuriser.
- Accès Équitable et Risques d’Inégalités : Des questions sont soulevées concernant le contrôle des risques d’accentuation de l’hétérogénéité des prises en charge et du creusement des inégalités d’accès aux soins associés à l’IA, en particulier pour les populations sous-représentées dans les bases de données.
- Besoin de Formation et d’Expertise : Le Guide Inserm (2025) insiste sur la nécessité de la formation du personnel à l’Inserm en tant qu’utilisateurs, développeurs et chercheurs en IA, ainsi que sur la reconnaissance et la structuration de l’expertise nouvelle constituée au sein de la communauté scientifique.
5. Amélioration de la Qualité de la Recherche et de l’Évaluation :
- Rôle des Bibliothécaires et Spécialistes de l’Information dans la Revue par les Pairs : L’étude de Rethlefsen et al. (2025) explore l’impact de l’implication des bibliothécaires et spécialistes de l’information (LIS) dans la revue par les pairs des revues systématiques. Bien que l’étude n’ait pas montré d’effet significatif sur les mesures de qualité étudiées, elle suggère que les éditeurs pourraient envisager d’inviter ces professionnels comme réviseurs méthodologiques. Le tableau 3 présente les caractéristiques des manuscrits inclus.
- Importance de la Méthodologie et de la Statistique dans la Revue : L’étude cite des travaux antérieurs (Schriger et al., 2002 ; Cobo et al., 2007) soulignant l’effet positif de la revue méthodologique et statistique sur la qualité des manuscrits publiés.
6. Évolution des Titres de Revues Scientifiques :
- Reflet de l’Internationalisation : Khelfaoui (2025) analyse les changements dans les titres des revues scientifiques, notant une tendance à l’effacement des origines nationales (« Australian Journal » devenant « Australasian Journal ») pour étendre leur portée géographique. Le tableau présente l’évolution du nombre de revues par pays entre 1965 et 2020.
- Indicateurs Bibliométriques : La source mentionne l’utilisation du Facteur d’Impact (IF) et de son évaluation relative par spécialité comme indicateurs de qualité des revues.
7. Gestion des Données de Recherche :
- Systèmes de Versionnement et de Gestion des Fichiers Volumineux : Wack et al. (2025) présentent l’utilisation de git et de son extension git-annex pour la gestion des données de recherche, en particulier les fichiers volumineux. Ces outils permettent le suivi des modifications historiques et la collaboration. La structure de branches git peut même refléter le processus de diagnostic à partir de multiples résultats.
- Passeport et Visa des Données : Le Guide Inserm (2025) propose un système de « passeport et visa des données » pour améliorer la transparence et la traçabilité de l’utilisation des données de recherche, en assurant leur adéquation aux nouveaux contextes et en enregistrant les modifications et validations.