Veille scientifique DéSaN Juin 2025

Une sélection de ressources (articles scientifiques, billets et autres liens) en lien avec les thématiques du DéSaN : entrepôts de données de santé, modèles de langage et, plus généralement, sciences de l’information dans le domaine de la santé. Ces ressources ont été repérées durant le mois de juin 2025.

Cette veille existe également sous la forme de pages Wakelet et Zotero.

Thèmes Principaux et Idées Clés (réalisé avec Google NotebookLM)

1. Applications des Grands Modèles Linguistiques (LLM) en Santé Numérique

Ces sources mettent en lumière l’utilisation des LLM pour améliorer les processus cliniques, la recherche et l’extraction d’informations.

  • Diagnostic et Aide à la Décision
    • McDuff D, Schaekermann M, Tu T, et al. Towards accurate differential diagnosis with large language models. : Ce document évalue AMIE, un système d’IA basé sur les LLM, pour l’aide au diagnostic différentiel auprès de médecins généralistes, bien que les cliniciens l’utilisent moins fréquemment que les outils de recherche traditionnels comme UpToDate ou PubMed.
    • Su H, Sun Y, Li R, et al. Large Language Models in Medical Diagnostics: Scoping Review With Bibliometric Analysis.: Cette revue de portée explore l’utilisation des LLM dans le diagnostic médical, couvrant la classification des maladies, la réponse aux questions médicales et la qualité du contenu généré, et notant un intérêt croissant pour les modèles de vision-langage pour l’interprétation de l’imagerie médicale.
    • Zekaoui NE, Rhanoui M, Yousfi S, et al. SSMT-PANBERT: A single-stage multitask model for phenotype extraction and assertion negation detection in unstructured clinical text.: Cette étude propose une solution multi-tâches basée sur les Transformers pour l’extraction de phénotypes et la détection de la négation d’assertions à partir de notes cliniques.
  • Recherche Clinique et Synthèse de Preuves
    • Bazoge A, Wargny M, Constant Dit Beaufils P, et al. Assessing large language models for acute heart failure classification and information extraction from French clinical notes.: Cette étude évalue l’utilisation des LLM pour la classification des hospitalisations pour insuffisance cardiaque aiguë et l’extraction d’informations cliniques à partir de notes françaises.
    • Huang J, Lai H, Zhao W, et al. Large Language Model-Assisted Risk-of-Bias Assessment in Randomized Controlled Trials Using the Revised Risk-of-Bias Tool: Usability Study.: Ce document examine la capacité des LLM à évaluer le risque de biais dans les essais contrôlés randomisés (ECR) pour les revues systématiques, en utilisant une approche basée sur des prompts structurés.
    • Kartchner D, Turner H, Ye C, et al. TrialSieve: A Comprehensive Biomedical Information Extraction Framework for PICO, Meta-Analysis, and Drug Repurposing. : Ce travail introduit TrialSieve, un cadre complet pour l’extraction d’informations biomédicales PICO (Patient, Intervention, Comparaison, Outcome), la méta-analyse et le repositionnement de médicaments à partir de résumés PubMed.
    • Ramchandani R, Guo E, Rakab E, et al. Validation of automated paper screening for esophagectomy systematic review using large language models.: Cette étude valide l’utilisation de LLM (GPT-4) pour le screening automatisé d’articles dans les revues systématiques, démontrant une performance prometteuse pour rationaliser le flux de travail et réaliser des économies de temps et de coûts.
    • Sk V, O A, A E, et al. Do it faster with PICOS: Generative AI-Assisted systematic review screening. : Ce document évalue l’impact des résumés PICOS structurés générés par des LLM open-source sur la vitesse et la précision du screening des titres et résumés pour les revues systématiques.
    • Wu S, Ma X, Luo D, et al. Automated literature research and review-generation method based on large language models. : Cette recherche propose une méthode automatisée de génération de revues littéraires basée sur les LLM, avec des stratégies efficaces d’atténuation des « hallucinations ».
  • Extraction d’Informations Cliniques (Général)
    • Du J, Wang D, Lin B, et al. Use of deep learning-based NLP models for full-text data elements extraction for systematic literature review tasks. : Ce document explore l’applicabilité des approches de traitement du langage naturel (NLP) pour l’extraction automatisée d’éléments de données à partir d’articles scientifiques complets pour les revues systématiques.
    • Dong X, Zhao D, Meng J, et al. SyRACT: Zero-shot Biomedical Document level Relation Extraction with Synergistic RAG and CoT.: Cette étude présente SyRACT, un cadre pour l’extraction de relations au niveau du document biomédical en utilisant la génération augmentée par récupération (RAG) et la chaîne de pensée (CoT).
  • Autres Applications Spécifiques
    • Daccache N, Zako J, Morisson L, et al. The applications of ChatGPT and other large language models in anesthesiology and critical care: a systematic review.: Cette revue systématique examine les applications de ChatGPT et d’autres grands modèles linguistiques en anesthésiologie et en soins intensifs.
    • AskTrip is live – automated clinical Q&A, instantly.: Ce document fait référence à « AskTrip », un outil de questions-réponses cliniques automatisé offrant une réponse instantanée. https://www.tripdatabase.com/ask

2. Défis et Considérations Éthiques liés aux LLM en Santé

Ces sources abordent les défis cruciaux liés à la confidentialité des données, aux biais et à la fiabilité des modèles d’IA en santé.

  • Confidentialité des Données et Anonymisation
    • F C, K C, G G, et al. Toward Identifying New Risk Aversions and Subsequent Limitations and Biases When Making De-identified Structured Data Sets Openly Available in a Post-LLM world. : Cette étude décrit les approches de dé-identification des données cliniques, soulignant les risques de ré-identification à l’ère des LLM et la nécessité d’une divulgation transparente.
    • Morris JX, Campion TR, Nutheti SL, et al. DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization. : Ce document introduit DIRI, une méthode contradictoire utilisant les LLM pour ré-identifier les patients à partir de notes cliniques anonymisées.
    • Verkijk S, Vossen P. Creating, anonymizing and evaluating the first medical language model pre-trained on Dutch Electronic Health Records: MedRoBERTa.nl. : Cette publication détaille le développement de MedRoBERTa.nl, un LLM pré-entraîné sur des dossiers de santé électroniques néerlandais, en expliquant son processus d’anonymisation pour permettre une publication ouverte.
  • Biais et Équité
    • Kucukkaya A, Aktas Bajalan E, Moons P, et al. Equality, Diversity, and Inclusion in AI-Driven Healthcare Chatbots: Addressing Challenges and Shaping Strategies. : Cet article aborde l’importance d’intégrer les principes d’équité, de diversité et d’inclusion (EDI) tout au long du cycle de vie de l’IA dans les soins de santé, afin de remédier aux biais algorithmiques.
    • Omar M, Soffer S, Agbareia R, et al. Sociodemographic biases in medical decision making by large language models.: Ce document se concentre sur l’atténuation des biais algorithmiques dans l’apprentissage automatique clinique et met à disposition des cas synthétiques et des données réelles dé-identifiées pour la recherche sur les biais sociodémographiques de l’IA.
  • Hallucinations et Fiabilité
    • Amugongo LM, Mascheroni P, Brooks S, et al. Retrieval augmented generation for large language models in healthcare: A systematic review. : Cette revue systématique des applications de la RAG pour les LLM en santé aborde les limitations des LLM comme les données obsolètes, la génération de contenu inexact (« hallucinations ») et le manque de transparence.

3. Développement et Évaluation de Modèles Linguistiques Spécifiques au Domaine Médical

Ces sources explorent les aspects techniques des LLM, y compris leurs architectures, méthodologies d’entraînement et les corpus de données utilisés.

  • Architectures et Méthodologies
    • Amugongo LM, Mascheroni P, Brooks S, et al. Retrieval augmented generation for large language models in healthcare: A systematic review. : Cette revue systématique des applications de la RAG pour les LLM en santé fournit un aperçu des différentes techniques de RAG (Naïve, Avancée, Modulaire) et de leur implémentation.
    • Verkijk S, Vossen P. Creating, anonymizing and evaluating the first medical language model pre-trained on Dutch Electronic Health Records: MedRoBERTa.nl. : Cette publication détaille le développement de MedRoBERTa.nl, un LLM pré-entraîné sur des dossiers de santé électroniques (DSE) néerlandais, soulignant l’importance du pré-entraînement spécifique au domaine pour les tâches de NLP.
    • Yuanyuan Z, Adel B, Mina B, et al. A scoping review of self-supervised representation learning for clinical decision making using EHR categorical data.: Cette revue examine l’apprentissage par représentation auto-supervisée (SSRL) pour la prise de décision clinique à partir de données catégorielles des DSE, identifiant les modèles basés sur les Transformers, les auto-encodeurs et les réseaux de neurones graphiques comme les principales tendances architecturales.
    • Leiser F, Guse R, Sunyaev A. Large Language Model Architectures in Health Care: Scoping Review of Research Perspectives.: Cette revue examine les architectures de modèles LLM (basées sur BERT ou GPT) utilisées dans la recherche en santé, suggérant que les modèles basés sur GPT sont mieux adaptés aux communications et les modèles basés sur BERT à l’innovation.
  • Données et Corpus
    • Amugongo LM, Mascheroni P, Brooks S, et al. Retrieval augmented generation for large language models in healthcare: A systematic review. : Cette revue systématique met en évidence les divers ensembles de données médicales utilisés pour augmenter les réponses des LLM en santé, y compris les ensembles de données de questions-réponses et de récupération d’informations provenant de sources comme PubMed et UMLS.
    • Kartchner D, Turner H, Ye C, et al. TrialSieve: A Comprehensive Biomedical Information Extraction Framework for PICO, Meta-Analysis, and Drug Repurposing. : Ce travail a introduit l’ensemble de données TrialSieve, un ensemble de données biomédicales complet et publiquement disponible, conçu pour améliorer l’extraction automatisée d’informations.
    • Du J, Wang D, Lin B, et al. Use of deep learning-based NLP models for full-text data elements extraction for systematic literature review tasks. : Ce document décrit la création et le partage public de corpus annotés pour l’extraction d’éléments de données à partir d’articles complets dans les revues systématiques.
    • OLSPub as an alternative to PubMed: Infrastructure made in Europe.: Ce projet vise à créer une base de données ouverte, fiable et durable pour les publications en sciences de la vie, servant d’alternative à PubMed en Europe.

4. LLM dans l’Éducation Médicale

Ces sources se concentrent spécifiquement sur l’intégration et l’évaluation des LLM dans le cadre de l’enseignement médical.

  • Boscardin CK, Abdulnour R-EE, Gin BC. Macy Foundation Innovation Report Part I: Current Landscape of Artificial Intelligence in Medical Education. : Cette étude explore l’utilisation de l’IA dans l’éducation médicale, en cartographiant les domaines d’application et en identifiant les lacunes pour une intégration efficace.
  • Cheng Y, Zhu L. A review of ChatGPT in medical education: exploring advantages and limitations. : Cette revue examine l’application de ChatGPT dans l’éducation médicale, y compris son évaluation pour la formation des patients et la préparation aux examens.
  • Turner L et al. It Takes More Than Enthusiasm: The Missing Infrastructure to Unlock AI’s Potential in Medical Education. : Ce bref article mentionne la démystification de l’IA et son rôle futur dans l’évaluation de l’éducation médicale.

Veille scientifique DéSaN Mai 2025

Une sélection de ressources (articles scientifiques, billets et autres liens) en lien avec les thématiques du DéSaN : entrepôts de données de santé, modèles de langage et, plus généralement, sciences de l’information dans le domaine de la santé. Ces ressources ont été repérées durant le mois de mai 2025.

Cette veille existe également sous la forme de pages Wakelet et Zotero.

Thèmes Principaux et Idées Clés (réalisé avec Google NotebookLM)

Modèles de Langage (LLMs, SLMs) et Applications en Santé

  1. Sumner J, Wang Y, Tan SY, et al. Perspectives and Experiences With Large Language Models in Health Care: Survey Study. : Cette source présente une étude par sondage explorant les perspectives et expériences relatives aux modèles de langage étendus dans le domaine de la santé . L’étude détaille l’adoption, les perceptions, les motivations d’utilisation et l’impact perçu des LLMs sur les rôles fonctionnels pour les professionnels de santé, les étudiants et les universitaires . Les préoccupations soulevées incluent l’autonomie et le potentiel de réduction des interactions humaines, soulignant la nécessité d’une mise en œuvre prudente pour assurer l’équité et la durabilité .
  2. Takita H, Kabata D, Walston SL, et al. A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians. : Il s’agit d’un examen systématique et d’une méta-analyse comparant la performance diagnostique de l’IA générative et des médecins . Les résultats suggèrent un potentiel d’amélioration des soins de santé et de l’éducation médicale, à condition d’une compréhension appropriée des limitations .
  3. Iqbal U, Tanweer A, Rahmanti AR, et al. Impact of large language model (ChatGPT) in healthcare: an umbrella review and evidence synthesis. : Cette revue globale (umbrella review) et synthèse de preuves explore l’impact de ChatGPT dans le domaine de la santé, couvrant le potentiel de transformation des soins, la prise de décision clinique et l’éducation médicale. Elle met en avant les applications prometteuses tout en soulignant l’importance des réglementations éthiques et la nécessité d’approfondir la recherche pour assurer la fiabilité et promouvoir la confiance.
  4. Liu J, Nguyen A, Capurro D, et al. Comparing Text-Based Clinical Risk Prediction in Critical Care: A Note-Specific Hierarchical Network and Large Language Models. : Ce document compare un modèle de réseau hiérarchique spécifique aux notes cliniques et les LLMs pour la tâche de prédiction du risque clinique basé sur le texte dans les soins critiques . L’étude conclut que les LLMs sous-performent sur cette tâche critique par rapport aux modèles basés sur des méthodes traditionnelles, soulevant des mises en garde quant à leur utilisation directe pour l’évaluation des risques .
  5. Verghese BG, Iyer C, Borse T, et al. Modern artificial intelligence and large language models in graduate medical education: a scoping review of attitudes, applications & practice. : Cette revue de portée explore l’intelligence artificielle et les grands modèles de langage dans l’éducation médicale supérieure (GME), identifiant les perceptions (de plus en plus favorables), les applications (évaluations, commentaires narratifs) et les lacunes de la recherche .
  6. Kim H, Hwang H, Lee J, et al. Small language models learn enhanced reasoning skills from medical textbooks. : Cette source présente Meerkat, une nouvelle famille de petits modèles de langage (SLMs) conçus pour les applications médicales, offrant une solution potentielle aux contraintes de confidentialité et de matériel des LLMs, tout en améliorant les capacités de raisonnement multi-étapes .

LLMs pour la Documentation Clinique et la Synthèse de Texte

  1. Asgari E, Montaa-Brown N, Dubois M, et al. A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation. : Cette source propose un cadre pour évaluer la sécurité clinique et les taux d’hallucination des LLMs utilisés pour la synthèse de texte médical, visant à améliorer l’efficacité du flux de travail et la sécurité des patients en automatisant des tâches comme la synthèse de consultations. Le cadre a permis de réduire les erreurs majeures dans la génération de notes cliniques.
  2. Bednarczyk L, Reichenpfader D, Gaudet-Blavignac C, et al. Scientific Evidence for Clinical Text Summarization Using Large Language Models: Scoping Review. : Il s’agit d’un examen de portée (scoping review) sur la synthèse de texte clinique utilisant les modèles de langage étendus au sein des dossiers médicaux électroniques (DME), soulignant que cet objectif est central dans les études analysées.
  3. Williams CYK, Subramanian CR, Ali SS, et al. Physician- and Large Language Model-Generated Hospital Discharge Summaries. : Ce papier évalue la qualité des résumés de sortie d’hôpital générés par des médecins et par des modèles de langage étendus , trouvant une qualité globale comparable et une préférence égale, bien que les résumés générés par LLM soient plus concis et cohérents mais moins exhaustifs et contenant plus d’erreurs uniques, avec un faible potentiel de danger global pour les deux types .

LLMs et Automatisation des Flux de Recherche

  1. Wang L, Li J, Zhuang B, et al. Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis. : Il s’agit d’un examen systématique et d’une méta-analyse en réseau évaluant l’exactitude des modèles de langage étendus lorsqu’ils répondent à des questions de recherche clinique . L’étude a analysé 168 articles et plusieurs types de questions cliniques, concluant sur les performances variables des différents modèles .
  2. Kim S, Yoon H-J. Large Language Model-Assisted Systematic Review: Validation Based on Cochrane Review Data. : Cette source illustre l’utilisation de modèles de langage étendus pour assister dans le processus de revue systématique , se concentrant spécifiquement sur l’étape du criblage des résumés et démontrant l’utilité pratique et les limites actuelles des LLMs dans cette automatisation .
  3. Scherbakov D, Hubig N, Jansari V, et al. The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review. : Cette revue examine l’utilisation des modèles de langage étendus dans le processus de création de revues scientifiques , y compris l’automatisation de différentes étapes comme le criblage, l’extraction de données et la synthèse de preuves, et anticipe un changement dans la manière dont les revues scientifiques sont menées .
  4. Cai X, Geng Y, Du Y, et al. Utilizing Large language models to select literature for meta-analysis shows workload reduction while maintaining a similar recall level as manual curation. : Ce document explore la possibilité d’utiliser des modèles de langage étendus pour faciliter l’étape de criblage de la littérature pour la méta-analyse, démontrant une réduction significative de la charge de travail tout en maintenant un niveau de rappel similaire à la curation manuelle grâce à une stratégie appelée LARS-GPT.
  5. Zhang G, Xu Z, Jin Q, et al. Leveraging long context in retrieval augmented language models for medical question answering. : Ce papier aborde l’utilisation de modèles LLM augmentés par récupération (RAG) pour améliorer la précision et la fiabilité de la réponse à des questions médicales , en abordant notamment le problème de la « perte au milieu » des informations .

Données, Datasets, Génération de Données Synthétiques et Qualité

  1. Huang R, Wu H, Yuan Y, et al. Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study. : Cette étude évalue la performance et analyse les biais de genre et raciaux des modèles de langage étendus dans la génération de dossiers de santé électroniques (DSE) synthétiques. Elle révèle que les modèles plus grands obtiennent de meilleures performances mais présentent des biais accrus, soulignant la nécessité de stratégies d’atténuation des biais.
  2. Loni M, Poursalim F, Asadi M, et al. A review on generative AI models for synthetic medical text, time series, and longitudinal data. : Cette revue de portée examine les modèles d’IA générative pour la création de données synthétiques en santé (texte, séries temporelles, données longitudinales) , avec la préservation de la vie privée comme objectif principal , et identifie l’évaluation fiable du risque de ré-identification comme une lacune majeure .
  3. Fang L, Salami MO, Weber GM, et al. uCite: The union of nine large-scale public PubMed citation datasets with reliability filtering. : Ce document décrit uCite, un grand ensemble de données résultant de l’union et de la structuration de neuf datasets publics de citations PubMed, visant à améliorer la couverture et la fiabilité des données de citation.
  4. Pierre-Jean M, Fracasso P, Cabon S, et al. Laboratory Results in Ouest Data Hub – Standardization and Data Quality Overview. : Cette source aborde la normalisation et la qualité des données de laboratoire dans les entrepôts de données cliniques (CDW) , soulignant l’importance du contrôle qualité et de la normalisation des valeurs pour des modèles de décision clinique fiables, malgré la normalisation LOINC .

Traitement Automatique du Langage (TAL) Biomédical Spécifique (Ex: Français)

  1. Knafou JDM. TransBERT: Leveraging Automatic Translation for Domain-Specific Knowledge Transfer. : Ce manuscrit explore l’application d’outils de TAL en développant TransBERT, un modèle de langage biomédical français entraîné sur des résumés traduits automatiquement pour surmonter la barrière linguistique en TAL dans les sciences de la vie .

Éthique, Régulation, Biais et Intégrité

  1. Intelligence artificielle en sant?: une concertation publique pour un dploiement thique. : Ce guide, issu d’une concertation publique menée par l’Agence du Numérique en Santé (ANS) et la Délégation au Numérique en Santé (DNS), propose des critères et des aides à l’implémentation pour des systèmes d’intelligence artificielle en santé éthiques , complétant le cadre réglementaire existant et axé sur les spécificités du secteur de la santé .
  2. Colloque 2025?: Comment lIA gnrative transforme les pratiques de recherche?: nouveaux enjeux dintgrit scientifique. : Ce document présente le programme d’un colloque explorant comment l’IA générative transforme les pratiques de recherche et les nouveaux enjeux d’intégrité scientifique qui en découlent , abordant des questions cruciales comme la fiabilité, la transparence, la protection des données et la régulation .
  3. Ji Y, Ma W, Sivarajkumar S, et al. Mitigating the risk of health inequity exacerbated by large language models. : Cette source traite de la réduction du risque d’iniquité en santé exacerbé par les grands modèles de langage , montrant que l’intégration de facteurs sociodémographiques non décisifs peut entraîner des résultats incorrects et nuisibles , et proposant un cadre (EquityGuard) pour détecter et atténuer ce risque .
  4. Huang R, Wu H, Yuan Y, et al. Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study. : (Déjà cité dans la section Données) Évalue et analyse les biais de genre et raciaux dans les DSE synthétiques générés par LLMs, soulignant la nécessité de stratégies d’atténuation des biais.
  5. Sumner J, Wang Y, Tan SY, et al. Perspectives and Experiences With Large Language Models in Health Care: Survey Study. : (Déjà cité dans la section Applications) Souligne la nécessité d’une mise en œuvre prudente des LLMs en santé pour assurer l’équité et la durabilité , basée sur les perceptions et expériences des utilisateurs .

Outils et Infrastructures Documentaires / Recherche d’Information

  1. Sidre C. Note sur les risques encourus par PubMed/Medline sous ladministration Trump 2025. : Cette note analyse les risques encourus par les bases de données PubMed/Medline et ClinicalTrials.gov sous une administration politique donnée , soulevant des préoccupations relatives à la liberté d’expression et de publication et au potentiel de désinformation dans les bases de données scientifiques .
  2. Bastian H. Germanys Plan for an Open and Independent PubMed Safety Net. : Cet article de blog présente le plan de l’Allemagne pour un réseau de sécurité (safety net) PubMed ouvert et indépendant, visant à établir une infrastructure de recherche en sciences de la vie résiliente et indépendante.
  3. Gitman V, Maxwell C, Gamble J-M. Enhancing search strategies for systematic reviews on drug Harms: An evaluation of the utility of ChatGPT in error detection and keyword generation. : Cette source évalue l’utilité de ChatGPT pour améliorer les stratégies de recherche pour les revues systématiques sur les effets néfastes des médicaments, notamment pour la détection d’erreurs et la génération de mots-clés manquants.
  4. Gorenshtein A, Shihada K, Sorka M, et al. LITERAS: Biomedical literature review and citation retrieval agents. : Ce papier présente LITERAS, un outil basé sur des agents IA et des LLMs pour la revue de littérature biomédicale et la récupération de citations, visant à améliorer l’exactitude et la fiabilité des citations par rapport aux approches LLM d’ moteurs de recherche académiques.
  5. PETITJEAN-MONNIN A. Click & Read, lextension indispensable pour accder aux publications scientifiques en un clic. : Il s’agit d’un billet de blog décrivant Click & Read, une extension conçue pour faciliter l’accès aux publications scientifiques en un clic .