Description : La maladie de Lyme est la maladie transmise par tiques la plus répandue dans l’hémisphère
du Nord. Le système de surveillance des cas humains de la maladie de Lyme est basé
sur un système passif des cas par les professionnels de santé qui présente plusieurs
failles rendant la surveillance incomplète. Avec l’expansion de l’usage de l’internet
et des réseaux sociaux, des chercheurs proposent l’utilisation des données provenant
des réseaux sociaux comme outil de surveillance, cette approche est appelée l’infodémiologie.
Cette approche a été testée dans plusieurs études avec succès. L’objectif de ce mémoire
est de construire une base de données à partir des tweets auto-déclarés, des tweets
classifiés et étiquetés comme un cas potentiel de Lyme ou non à l’aide des modèles
de classificateurs basés sur des transformateurs comme, BERTweet, DistilBERT et ALBERT.
Pour ce faire, un total de 20 000 tweets en anglais en lien avec la maladie de Lyme
sans restriction géographique de 2010 à 2022 a été collecté avec la plateforme API
twitter. Nous avons procédé au nettoyage la base de données. Ensuite les données nettoyées
ont été classifiées en binaire comme cas potentiels ou non de la maladie de Lyme sur
la base des symptômes de la maladie comme mots-clés. À l’aide des modèles de classification
basés sur les transformateurs, la classification automatique des données est évaluée
en premier sans, et ensuite avec des émojis convertis en mots. Nous avons trouvé
que les modèles de classification basés sur les transformateurs performent mieux que
les modèles de classification classiques comme TF-IDF, Naive Bayes et autres ; surtout
le modèle BERTweet a surpassé tous les modèles évalués avec un score F1 moyen de 89,3%,
une précision de 97%, une exactitude de 90% et un rappel de 82,6%. Aussi l’incorporation
des émojis dans notre base de données améliore la performance de tous les modèles
d’au moins 5% mais BERTweet a une fois de plus le mieux performé avec une augmentation
de tous les paramètres évalués. Les tweets en anglais sont majoritairement en provenance
des États-Unis et pour contrecarrer cette prédominance, les futurs travaux devraient
collecter des tweets de toutes langues en lien avec la maladie de Lyme surtout parce
que les pays européens où la maladie de Lyme sont en émergence ne sont pas des pays
anglophones.;