Veille scientifique DéSaN Mai 2025

Une sélection de ressources (articles scientifiques, billets et autres liens) en lien avec les thématiques du DéSaN : entrepôts de données de santé, modèles de langage et, plus généralement, sciences de l’information dans le domaine de la santé. Ces ressources ont été repérées durant le mois de mai 2025.

Cette veille existe également sous la forme de pages Wakelet et Zotero.

Thèmes Principaux et Idées Clés (réalisé avec Google NotebookLM)

Modèles de Langage (LLMs, SLMs) et Applications en Santé

  1. Sumner J, Wang Y, Tan SY, et al. Perspectives and Experiences With Large Language Models in Health Care: Survey Study. : Cette source présente une étude par sondage explorant les perspectives et expériences relatives aux modèles de langage étendus dans le domaine de la santé . L’étude détaille l’adoption, les perceptions, les motivations d’utilisation et l’impact perçu des LLMs sur les rôles fonctionnels pour les professionnels de santé, les étudiants et les universitaires . Les préoccupations soulevées incluent l’autonomie et le potentiel de réduction des interactions humaines, soulignant la nécessité d’une mise en œuvre prudente pour assurer l’équité et la durabilité .
  2. Takita H, Kabata D, Walston SL, et al. A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians. : Il s’agit d’un examen systématique et d’une méta-analyse comparant la performance diagnostique de l’IA générative et des médecins . Les résultats suggèrent un potentiel d’amélioration des soins de santé et de l’éducation médicale, à condition d’une compréhension appropriée des limitations .
  3. Iqbal U, Tanweer A, Rahmanti AR, et al. Impact of large language model (ChatGPT) in healthcare: an umbrella review and evidence synthesis. : Cette revue globale (umbrella review) et synthèse de preuves explore l’impact de ChatGPT dans le domaine de la santé, couvrant le potentiel de transformation des soins, la prise de décision clinique et l’éducation médicale. Elle met en avant les applications prometteuses tout en soulignant l’importance des réglementations éthiques et la nécessité d’approfondir la recherche pour assurer la fiabilité et promouvoir la confiance.
  4. Liu J, Nguyen A, Capurro D, et al. Comparing Text-Based Clinical Risk Prediction in Critical Care: A Note-Specific Hierarchical Network and Large Language Models. : Ce document compare un modèle de réseau hiérarchique spécifique aux notes cliniques et les LLMs pour la tâche de prédiction du risque clinique basé sur le texte dans les soins critiques . L’étude conclut que les LLMs sous-performent sur cette tâche critique par rapport aux modèles basés sur des méthodes traditionnelles, soulevant des mises en garde quant à leur utilisation directe pour l’évaluation des risques .
  5. Verghese BG, Iyer C, Borse T, et al. Modern artificial intelligence and large language models in graduate medical education: a scoping review of attitudes, applications & practice. : Cette revue de portée explore l’intelligence artificielle et les grands modèles de langage dans l’éducation médicale supérieure (GME), identifiant les perceptions (de plus en plus favorables), les applications (évaluations, commentaires narratifs) et les lacunes de la recherche .
  6. Kim H, Hwang H, Lee J, et al. Small language models learn enhanced reasoning skills from medical textbooks. : Cette source présente Meerkat, une nouvelle famille de petits modèles de langage (SLMs) conçus pour les applications médicales, offrant une solution potentielle aux contraintes de confidentialité et de matériel des LLMs, tout en améliorant les capacités de raisonnement multi-étapes .

LLMs pour la Documentation Clinique et la Synthèse de Texte

  1. Asgari E, Montaa-Brown N, Dubois M, et al. A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation. : Cette source propose un cadre pour évaluer la sécurité clinique et les taux d’hallucination des LLMs utilisés pour la synthèse de texte médical, visant à améliorer l’efficacité du flux de travail et la sécurité des patients en automatisant des tâches comme la synthèse de consultations. Le cadre a permis de réduire les erreurs majeures dans la génération de notes cliniques.
  2. Bednarczyk L, Reichenpfader D, Gaudet-Blavignac C, et al. Scientific Evidence for Clinical Text Summarization Using Large Language Models: Scoping Review. : Il s’agit d’un examen de portée (scoping review) sur la synthèse de texte clinique utilisant les modèles de langage étendus au sein des dossiers médicaux électroniques (DME), soulignant que cet objectif est central dans les études analysées.
  3. Williams CYK, Subramanian CR, Ali SS, et al. Physician- and Large Language Model-Generated Hospital Discharge Summaries. : Ce papier évalue la qualité des résumés de sortie d’hôpital générés par des médecins et par des modèles de langage étendus , trouvant une qualité globale comparable et une préférence égale, bien que les résumés générés par LLM soient plus concis et cohérents mais moins exhaustifs et contenant plus d’erreurs uniques, avec un faible potentiel de danger global pour les deux types .

LLMs et Automatisation des Flux de Recherche

  1. Wang L, Li J, Zhuang B, et al. Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis. : Il s’agit d’un examen systématique et d’une méta-analyse en réseau évaluant l’exactitude des modèles de langage étendus lorsqu’ils répondent à des questions de recherche clinique . L’étude a analysé 168 articles et plusieurs types de questions cliniques, concluant sur les performances variables des différents modèles .
  2. Kim S, Yoon H-J. Large Language Model-Assisted Systematic Review: Validation Based on Cochrane Review Data. : Cette source illustre l’utilisation de modèles de langage étendus pour assister dans le processus de revue systématique , se concentrant spécifiquement sur l’étape du criblage des résumés et démontrant l’utilité pratique et les limites actuelles des LLMs dans cette automatisation .
  3. Scherbakov D, Hubig N, Jansari V, et al. The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review. : Cette revue examine l’utilisation des modèles de langage étendus dans le processus de création de revues scientifiques , y compris l’automatisation de différentes étapes comme le criblage, l’extraction de données et la synthèse de preuves, et anticipe un changement dans la manière dont les revues scientifiques sont menées .
  4. Cai X, Geng Y, Du Y, et al. Utilizing Large language models to select literature for meta-analysis shows workload reduction while maintaining a similar recall level as manual curation. : Ce document explore la possibilité d’utiliser des modèles de langage étendus pour faciliter l’étape de criblage de la littérature pour la méta-analyse, démontrant une réduction significative de la charge de travail tout en maintenant un niveau de rappel similaire à la curation manuelle grâce à une stratégie appelée LARS-GPT.
  5. Zhang G, Xu Z, Jin Q, et al. Leveraging long context in retrieval augmented language models for medical question answering. : Ce papier aborde l’utilisation de modèles LLM augmentés par récupération (RAG) pour améliorer la précision et la fiabilité de la réponse à des questions médicales , en abordant notamment le problème de la « perte au milieu » des informations .

Données, Datasets, Génération de Données Synthétiques et Qualité

  1. Huang R, Wu H, Yuan Y, et al. Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study. : Cette étude évalue la performance et analyse les biais de genre et raciaux des modèles de langage étendus dans la génération de dossiers de santé électroniques (DSE) synthétiques. Elle révèle que les modèles plus grands obtiennent de meilleures performances mais présentent des biais accrus, soulignant la nécessité de stratégies d’atténuation des biais.
  2. Loni M, Poursalim F, Asadi M, et al. A review on generative AI models for synthetic medical text, time series, and longitudinal data. : Cette revue de portée examine les modèles d’IA générative pour la création de données synthétiques en santé (texte, séries temporelles, données longitudinales) , avec la préservation de la vie privée comme objectif principal , et identifie l’évaluation fiable du risque de ré-identification comme une lacune majeure .
  3. Fang L, Salami MO, Weber GM, et al. uCite: The union of nine large-scale public PubMed citation datasets with reliability filtering. : Ce document décrit uCite, un grand ensemble de données résultant de l’union et de la structuration de neuf datasets publics de citations PubMed, visant à améliorer la couverture et la fiabilité des données de citation.
  4. Pierre-Jean M, Fracasso P, Cabon S, et al. Laboratory Results in Ouest Data Hub – Standardization and Data Quality Overview. : Cette source aborde la normalisation et la qualité des données de laboratoire dans les entrepôts de données cliniques (CDW) , soulignant l’importance du contrôle qualité et de la normalisation des valeurs pour des modèles de décision clinique fiables, malgré la normalisation LOINC .

Traitement Automatique du Langage (TAL) Biomédical Spécifique (Ex: Français)

  1. Knafou JDM. TransBERT: Leveraging Automatic Translation for Domain-Specific Knowledge Transfer. : Ce manuscrit explore l’application d’outils de TAL en développant TransBERT, un modèle de langage biomédical français entraîné sur des résumés traduits automatiquement pour surmonter la barrière linguistique en TAL dans les sciences de la vie .

Éthique, Régulation, Biais et Intégrité

  1. Intelligence artificielle en sant?: une concertation publique pour un dploiement thique. : Ce guide, issu d’une concertation publique menée par l’Agence du Numérique en Santé (ANS) et la Délégation au Numérique en Santé (DNS), propose des critères et des aides à l’implémentation pour des systèmes d’intelligence artificielle en santé éthiques , complétant le cadre réglementaire existant et axé sur les spécificités du secteur de la santé .
  2. Colloque 2025?: Comment lIA gnrative transforme les pratiques de recherche?: nouveaux enjeux dintgrit scientifique. : Ce document présente le programme d’un colloque explorant comment l’IA générative transforme les pratiques de recherche et les nouveaux enjeux d’intégrité scientifique qui en découlent , abordant des questions cruciales comme la fiabilité, la transparence, la protection des données et la régulation .
  3. Ji Y, Ma W, Sivarajkumar S, et al. Mitigating the risk of health inequity exacerbated by large language models. : Cette source traite de la réduction du risque d’iniquité en santé exacerbé par les grands modèles de langage , montrant que l’intégration de facteurs sociodémographiques non décisifs peut entraîner des résultats incorrects et nuisibles , et proposant un cadre (EquityGuard) pour détecter et atténuer ce risque .
  4. Huang R, Wu H, Yuan Y, et al. Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study. : (Déjà cité dans la section Données) Évalue et analyse les biais de genre et raciaux dans les DSE synthétiques générés par LLMs, soulignant la nécessité de stratégies d’atténuation des biais.
  5. Sumner J, Wang Y, Tan SY, et al. Perspectives and Experiences With Large Language Models in Health Care: Survey Study. : (Déjà cité dans la section Applications) Souligne la nécessité d’une mise en œuvre prudente des LLMs en santé pour assurer l’équité et la durabilité , basée sur les perceptions et expériences des utilisateurs .

Outils et Infrastructures Documentaires / Recherche d’Information

  1. Sidre C. Note sur les risques encourus par PubMed/Medline sous ladministration Trump 2025. : Cette note analyse les risques encourus par les bases de données PubMed/Medline et ClinicalTrials.gov sous une administration politique donnée , soulevant des préoccupations relatives à la liberté d’expression et de publication et au potentiel de désinformation dans les bases de données scientifiques .
  2. Bastian H. Germanys Plan for an Open and Independent PubMed Safety Net. : Cet article de blog présente le plan de l’Allemagne pour un réseau de sécurité (safety net) PubMed ouvert et indépendant, visant à établir une infrastructure de recherche en sciences de la vie résiliente et indépendante.
  3. Gitman V, Maxwell C, Gamble J-M. Enhancing search strategies for systematic reviews on drug Harms: An evaluation of the utility of ChatGPT in error detection and keyword generation. : Cette source évalue l’utilité de ChatGPT pour améliorer les stratégies de recherche pour les revues systématiques sur les effets néfastes des médicaments, notamment pour la détection d’erreurs et la génération de mots-clés manquants.
  4. Gorenshtein A, Shihada K, Sorka M, et al. LITERAS: Biomedical literature review and citation retrieval agents. : Ce papier présente LITERAS, un outil basé sur des agents IA et des LLMs pour la revue de littérature biomédicale et la récupération de citations, visant à améliorer l’exactitude et la fiabilité des citations par rapport aux approches LLM d’ moteurs de recherche académiques.
  5. PETITJEAN-MONNIN A. Click & Read, lextension indispensable pour accder aux publications scientifiques en un clic. : Il s’agit d’un billet de blog décrivant Click & Read, une extension conçue pour faciliter l’accès aux publications scientifiques en un clic .

Veille scientifique DéSaN Avril 2025

Une sélection de ressources (articles scientifiques, billets et autres liens) en lien avec les thématiques du DéSaN : entrepôts de données de santé, modèles de langage et, plus généralement, sciences de l’information dans le domaine de la santé. Ces ressources ont été repérées durant le mois d’avril 2025.

Cette veille existe également sous la forme de pages Wakelet et Zotero.

Thèmes Principaux et Idées Clés (réalisé avec Google NotebookLM) :

Veille scientifique DéSaN Avril 2025

1. Applications et Performances des LLM dans le Domaine Médical

  • Question-Réponse Médicale et Diagnostic : Plusieurs études évaluent la capacité des LLM à répondre à des questions médicales et à aider au processus diagnostique.
  • Le document « Goh_2025_natmed » indique que les médecins utilisant un LLM obtiennent de meilleurs scores que ceux utilisant uniquement des ressources conventionnelles pour les questions de décision de gestion (40,5 % contre 33,4 %), de décision diagnostique (56,8 % contre 45,8 %) et les questions spécifiques au contexte (42,4 % contre 34,9 %).
  • Le document « liu_2025_crm » et « Sandmann_2025_natmed » font référence à des jeux de données de questions-réponses médicales, suggérant l’utilisation de ces ressources pour évaluer les LLM.
  • Le document « Tordjman_2025_natmed » évalue la capacité de DeepSeek, un nouveau LLM, dans le domaine médical, en se concentrant sur la précision, les diagnostics différentiels et le raisonnement.
  • Le document « mcduff_2025_nature » explore l’exactitude du diagnostic différentiel avec les LLM, comparant AMIE (un système assisté par LLM) à la recherche conventionnelle et aux cliniciens non assistés. Les résultats suggèrent qu’AMIE améliore l’inclusion du diagnostic final dans la liste de diagnostics différentiels.
  • Le document « shan_2025_jmirmi » compare l’exactitude diagnostique des LLM et des professionnels cliniques dans diverses spécialités, montrant des résultats variables où les LLM peuvent surperformer ou sous-performer les cliniciens selon la spécialité et le contexte d’évaluation.
  • Le document « tu_2025_nature » évalue les capacités de conversation et de raisonnement des LLM, cruciales pour les interactions cliniques, et suggère que les boucles d’auto-jeu améliorent la qualité des dialogues simulés.
  • Extraction d’Informations : Les LLM sont évalués pour des tâches d’extraction d’informations à partir de textes biomédicaux.
  • Le document « chen_2025_nc » examine différentes études évaluant les LLM dans des tâches extractives comme la reconnaissance d’entités nommées (NER) et l’extraction de relations. Il note que les approches de fine-tuning de pointe surpassent les LLM en mode « zero-shot » et « few-shot » dans la plupart des tâches BioNLP, en particulier pour l’extraction d’informations. Cependant, les LLM fermés comme GPT-3.5 et GPT-4 montrent de meilleures performances en mode « zero-shot » et « few-shot » dans les tâches liées au raisonnement, comme la réponse aux questions médicales.
  • Le document « pan_2025_cibam » décrit l’utilisation de LLM pour l’inférence de maladies à partir de documents cliniques et l’extraction de paires clé-valeur pour les tests de laboratoire, permettant de comparer les résultats avec les directives cliniques pour le diagnostic de maladies comme le diabète ou l’hypertension.
  • Extraction d’Événements Indésirables (ADE) : L’application des LLM à l’extraction d’informations sur les événements indésirables des médicaments est explorée.
  • Le document « tanaka_2025_med » décrit une méthode basée sur les LLM pour extraire les paires médicament-ADE à partir des notices de médicaments de différentes régions (UE, Royaume-Uni, Japon), créant ainsi des bases de données supplémentaires pour étudier les ADE de manière exhaustive.
  • Analyse de Documents Qualitatifs : Les LLM peuvent également être utilisés pour l’analyse de données qualitatives dans le domaine de la santé.
  • Le document « player_2025_pm » présente un exemple de sortie d’un outil (DECOTA) utilisant des LLM pour l’analyse qualitative de données textuelles (concernant la défense contre les germes dans cet exemple), en identifiant des thèmes, des codes et des citations pertinentes.
  • Modèles Spécifiques et Performances : Plusieurs LLM sont mentionnés et évalués dans les sources.
  • GPT-3.5, GPT-4, GPT-4o, Llama 3 (8b, 70b), Llama 3.1 (405b), DeepSeek, DeepSeek-R1, DeepSeek-V3, Gemi2FTE, Med-PaLM, BERT, BART, LLaMA 2, et PMC LLaMA sont cités comme modèles utilisés et évalués.
  • Le document « neves_2025_cibam » compare la prévalence de 20 affections chroniques identifiées par différentes stratégies de phénotypage, y compris plusieurs modèles LLM (GPT-3.5, GPT-4o, Llama 3 variants). Les performances de classification de ces modèles varient en fonction du niveau de confiance et du groupe d’âge des patients. GPT-4o semble avoir d’excellentes performances pour les niveaux de confiance moyen et élevé.
  • Le document « chen_2025_nc » souligne que GPT-4 montre les meilleures performances globales, en particulier pour le raisonnement, mais est significativement plus coûteux que GPT-3.5. Les LLM open-source comme LLaMA 2 nécessitent souvent un fine-tuning pour atteindre des performances compétitives dans les applications BioNLP.
  • Limitations et Améliorations Méthodologiques : Malgré leur potentiel, l’application des LLM en santé présente des défis méthodologiques.
  • Le document « Kunze_2025_arthroscopy » souligne que les cas d’utilisation des LLM dans la recherche en soins de santé musculo-squelettiques sont redondants et manquent souvent de rigueur méthodologique appropriée. L’étude appelle à de meilleures pratiques méthodologiques pour l’intégration future des LLM dans la pratique clinique.
  • Le document « ke_2025_npjdm » présente un nouveau cadre d’évaluation qualitative (S.C.O.R.E.) pour évaluer les réponses des LLM dans un contexte médical, se concentrant sur la sécurité, le consensus clinique, l’objectivité, la reproductibilité et l’explicabilité.

2. Gestion des Données de Santé et Confidentialité (CNIL)

Le déploiement accru du numérique en santé met en évidence l’importance cruciale de la sécurité et de la confidentialité des données des patients, en particulier dans les dossiers patients informatisés (DPI). Le document « CNIL_projet_de_recommandation_dossier_patient_informatise » fournit des recommandations détaillées sur la protection de ces données.

  • Risques liés à la Cybersécurité : Les systèmes d’information de santé sont des cibles attrayantes pour les acteurs malveillants.
  • Principes de Sécurité et de Confidentialité : La réglementation impose la mise en œuvre de mesures pour garantir la sécurité des données (confidentialité, intégrité, disponibilité) et la résilience des systèmes.
  • Gouvernance et Habilitations : Une gouvernance stricte est nécessaire pour la gestion des accès au DPI.
  • Données Collectées et Documents du DPI : Seules les données strictement nécessaires à la prise en charge et au suivi doivent être traitées.
  • Conservation et Destruction des Données : Des règles spécifiques régissent la durée de conservation des dossiers médicaux et de leurs traces fonctionnelles/techniques.
  • Réutilisation des Données : La réutilisation des données du DPI à des fins ultérieures (recherche, études, évaluation) est un traitement distinct.
  • Partage et Échange d’Informations : Le code de la santé publique encadre l’échange et le partage d’informations entre professionnels impliqués dans la prise en charge d’une même personne, à condition que ces informations soient strictement nécessaires à la coordination ou à la continuité des soins.

3. Formation au Numérique en Santé

L’intégration croissante du numérique en santé nécessite une formation adéquate des futurs professionnels de santé.

  • Le document « Bouraïma-Lelong_2025_rev-inf » mentionne le projet Satin à l’université de Caen, visant à former les étudiants en santé au numérique dans ce domaine. L’université de Caen Normandie, qui accueille un nombre important d’étudiants en santé, a développé ce projet dans le cadre de son UFR santé.

Veille scientifique DéSaN Mars 2025

Une sélection de ressources (articles scientifiques, billets et autres liens) en lien avec les thématiques du DéSaN : entrepôts de données de santé, modèles de langage et, plus généralement, sciences de l’information dans le domaine de la santé. Ces ressources ont été repérées durant le mois de mars 2025.

Cette veille existe également sous la forme de pages Wakelet et Zotero.

Thèmes Principaux et Idées Clés (réalisé avec Google NotebookLM) :

1. Impact de l’Automatisation et des LLMs sur la Recherche d’Information :

  • Filtrage et Biais dans les Bases de Données : L’étude d’Askin et al. (2025) souligne les défis de l’indexation automatisée dans Medline, montrant une proportion significative d’enregistrements inclus qui ne concernent pas des études humaines (e.g., études animales, contextes agricoles ou vétérinaires). Cela met en évidence le risque de « filtering failure » et la nécessité d’améliorer les méthodes pour cibler précisément les études pertinentes. Par exemple, l’étude révèle que « Includes animal study » représente une part importante des enregistrements inclus.
  • Limitations des LLMs comme Moteurs de Recherche Autonomes : Bouchard (2025) insiste sur le fait que les grands modèles de langage (LLMs) comme ChatGPT ne sont pas conçus pour remplacer seuls les moteurs de recherche traditionnels. Contrairement à ces derniers, ils ne s’appuient pas sur des index préconstruits pour fournir des réponses sourcées individuellement. L’auteur note : « En aucun cas, ces techniques de LLM n’ont été pensées pour remplacer, seules, Google. »
  • Compréhension de l’Intention de l’Utilisateur par les LLMs : Cependant, Bouchard observe que les LLMs progressent dans leur capacité à distinguer l’intention des requêtes (recherche d’information vs. réalisation d’une tâche).
  • Défis Sémantiques et Épistémiques : La source soulève des questions cruciales pour la recherche d’information, notamment la variabilité sémantique et épistémique du vocabulaire entre domaines et écoles de pensée, ainsi que le rôle de l’expertise humaine.
  • Crédibilité et Citation des IA : Bouchard met en garde contre la citation ou le crédit des IA, soulignant qu’elles n’ont pas d’autorité épistémique et ne sont pas propriétaires de leurs productions. Les usages substantiels de LLMs dans la production de contenu doivent être déclarés avec transparence et documentation (nom, version, date).

2. Utilisation et Évaluation des Modèles de Langage (LLMs) en Biomédecine :

  • Synthèse de Données et Extraction d’Information : L’étude de Liu (2025) évalue la performance du modèle Claude pour l’extraction de données spécifiques à partir d’articles de recherche. Les résultats montrent des taux d’extraction corrects variables selon les items, avec certains items atteignant 100% de précision (« Study ID », « Aim of study »), tandis que d’autres sont plus difficiles (« Assessed for eligibility »). Le tableau 1 détaille la précision par item et les intervalles de confiance.
  • Génération de Données Synthétiques : Plusieurs sources (Bornet 2025, Ibrahim 2025, Guide Inserm 2025) abordent l’utilisation de l’IA pour générer des données synthétiques en biomédecine. Bornet (2025) explore l’utilisation de FastText pour encoder des terminologies médicales hiérarchiques comme ICD-10 et ATC, en capturant des informations subword. Ibrahim (2025) offre une revue extensive des techniques de synthèse de données (GANs, VAEs, modèles de diffusion, LLMs) appliquées à différents types de données biomédicales (imagerie, données EHR, signaux, textes). Le Guide Inserm (2025) souligne le potentiel des données synthétiques pour surmonter les problèmes de confidentialité et les biais dans les données d’entraînement des LLMs.
  • Évaluation des LLMs en Contexte Médical : Xie (2025) compare les performances de différents LLMs (LLaMA2, PMC-LLaMA, Me-LLaMA, Meditron) sur diverses tâches biomédicales (question-réponse, reconnaissance d’entités nommées, extraction de relations, classification, summarisation, inférence en langage naturel). Les résultats montrent des variations significatives de performance selon le modèle et la tâche. Singhal (2025) évalue Med-PaLM 2 sur le benchmark MMLU (Massive Multitask Language Understanding) pour les connaissances médicales.
  • Défis d’Évaluation : Ibrahim (2025) identifie le manque de cadres d’évaluation robustes comme un défi majeur, soulignant le besoin de benchmarks cross-modalités, de métriques de diversité et de validation clinique à grande échelle. Les tableaux 16 et 17 listent diverses métriques de fidélité utilisées pour évaluer les données synthétiques.
  • Compréhension des Principes Médicaux : Ibrahim (2025) note que les générateurs de textes médicaux avancés basés sur des LLMs généraux peuvent ne pas saisir pleinement les principes ou la logique sous-jacente des connaissances médicales.

3. Application des LLMs à la sélection de résumés (Abstract Screening) :

  • Haute Performance Potentielle : L’étude de Sanghera et al. (2025) examine l’utilisation d’ensembles de LLMs pour l’écran automatisé d’abstracts. Les résultats suggèrent que les LLMs peuvent atteindre une haute performance, comparable voire supérieure à celle des chercheurs humains pour cette tâche. La Figure 1 compare la précision et le rappel de différents LLMs avec diverses invites.
  • Consistance des Décisions des LLMs : Les LLMs ont montré une haute consistance interne (mesurée par le coefficient Kappa), souvent supérieure à celle des chercheurs humains effectuant la même tâche.
  • Rôle du « Prompt Engineering » : La performance des LLMs est fortement influencée par la formulation de l’invite (« prompt »). L’étude a exploré l’impact de différentes invites biaisées vers l’inclusion.
  • Ensembles de LLMs : La combinaison de plusieurs LLMs en ensembles (parallèles ou en série) a permis d’améliorer la sensibilité tout en maintenant une précision raisonnable, réduisant potentiellement la charge de travail du criblage manuel. Le Tableau 4 présente la performance des ensembles optimaux de LLMs.

4. Enjeux Éthiques, Sociaux et Environnementaux de l’IA en Santé :

  • Biais et Hallucinations : Le Guide Inserm (2025) met en garde contre les risques de biais et d’hallucinations liés à la langue utilisée ou à la voix dans les applications d’IA.
  • Dépendance aux Systèmes Propriétaires : L’augmentation du recours à l’IA peut entraîner une dépendance accrue à des systèmes propriétaires, avec des logiques potentiellement incompatibles avec les bonnes pratiques scientifiques (consentement, propriété intellectuelle, citation, vérification des résultats).
  • Impact Écologique : La consommation énergétique et hydrique des grands systèmes d’IA est un enjeu majeur soulevé par le Guide Inserm (2025), avec des chiffres alarmants sur l’augmentation de cette consommation. L’importance de la « frugalité » et de la « sobriété » dans le développement et l’utilisation de l’IA est soulignée.
  • Souveraineté Numérique et Protection de la Vie Privée : Le Guide Inserm (2025) discute des avantages potentiels des « Small Language Models » (SLMs) en termes de souveraineté numérique et de respect de la vie privée, car ils peuvent être plus faciles à contrôler et à sécuriser.
  • Accès Équitable et Risques d’Inégalités : Des questions sont soulevées concernant le contrôle des risques d’accentuation de l’hétérogénéité des prises en charge et du creusement des inégalités d’accès aux soins associés à l’IA, en particulier pour les populations sous-représentées dans les bases de données.
  • Besoin de Formation et d’Expertise : Le Guide Inserm (2025) insiste sur la nécessité de la formation du personnel à l’Inserm en tant qu’utilisateurs, développeurs et chercheurs en IA, ainsi que sur la reconnaissance et la structuration de l’expertise nouvelle constituée au sein de la communauté scientifique.

5. Amélioration de la Qualité de la Recherche et de l’Évaluation :

  • Rôle des Bibliothécaires et Spécialistes de l’Information dans la Revue par les Pairs : L’étude de Rethlefsen et al. (2025) explore l’impact de l’implication des bibliothécaires et spécialistes de l’information (LIS) dans la revue par les pairs des revues systématiques. Bien que l’étude n’ait pas montré d’effet significatif sur les mesures de qualité étudiées, elle suggère que les éditeurs pourraient envisager d’inviter ces professionnels comme réviseurs méthodologiques. Le tableau 3 présente les caractéristiques des manuscrits inclus.
  • Importance de la Méthodologie et de la Statistique dans la Revue : L’étude cite des travaux antérieurs (Schriger et al., 2002 ; Cobo et al., 2007) soulignant l’effet positif de la revue méthodologique et statistique sur la qualité des manuscrits publiés.

6. Évolution des Titres de Revues Scientifiques :

  • Reflet de l’Internationalisation : Khelfaoui (2025) analyse les changements dans les titres des revues scientifiques, notant une tendance à l’effacement des origines nationales (« Australian Journal » devenant « Australasian Journal ») pour étendre leur portée géographique. Le tableau présente l’évolution du nombre de revues par pays entre 1965 et 2020.
  • Indicateurs Bibliométriques : La source mentionne l’utilisation du Facteur d’Impact (IF) et de son évaluation relative par spécialité comme indicateurs de qualité des revues.

7. Gestion des Données de Recherche :

  • Systèmes de Versionnement et de Gestion des Fichiers Volumineux : Wack et al. (2025) présentent l’utilisation de git et de son extension git-annex pour la gestion des données de recherche, en particulier les fichiers volumineux. Ces outils permettent le suivi des modifications historiques et la collaboration. La structure de branches git peut même refléter le processus de diagnostic à partir de multiples résultats.
  • Passeport et Visa des Données : Le Guide Inserm (2025) propose un système de « passeport et visa des données » pour améliorer la transparence et la traçabilité de l’utilisation des données de recherche, en assurant leur adéquation aux nouveaux contextes et en enregistrant les modifications et validations.

Veille scientifique DéSaN Février 2025

Une sélection de ressources (articles scientifiques, billets et autres liens) en lien avec les thématiques du DéSaN : entrepôts de données de santé, modèles de langage et, plus généralement, sciences de l’information dans le domaine de la santé. Ces ressources ont été repérées durant le mois de février 2025.

Cette veille existe également sous la forme de pages Wakelet et Zotero.

Veille scientifique DéSaN Janvier 2025

Une sélection de ressources (articles scientifiques, billets et autres liens) en lien avec les thématiques du DéSaN : entrepôts de données de santé, modèles de langage et, plus généralement, sciences de l’information dans le domaine de la santé. Ces ressources ont été repérées durant le mois de janvier 2025.

Cette veille existe également sous la forme de pages Wakelet et Zotero.