Extraction automatisée de données pour publication dans le registre des tumeurs

L’hôpital cantonal de Baden a pour obligation légale de signaler les maladies oncologiques au registre des tumeurs du canton d’Argovie. Or, la transmission manuelle des données occasionne une surcharge de travail, car les informations pertinentes se trouvent dans divers systèmes sous une forme non structurée. L’hôpital cantonal, avec le soutien du projet Écosystème de données, a mis au point un prototype afin d’automatiser le processus. Son logiciel structure automatiquement les informations, en les rendant anonymes au préalable afin de protéger les données des patients.

L’hôpital cantonal de Baden a mis au point une solution technique pour automatiser l’extraction et le traitement de données sur les tumeurs. Auparavant, le transfert de données aux services compétents, à savoir le registre argovien des tumeurs, était extrêmement complexe, avec de nombreux obstacles. En effet, les données cliniques sont disponibles sous une forme généralement non structurée, par exemple dans des rapports médicaux ou des fichiers .pdf scannés. S’ajoute à cette difficulté le fait que les données sont en partie imprécises, voire incomplètes, ce qui nuit à la cohérence et à la qualité des saisies dans le registre des tumeurs. Un autre obstacle est constitué par l’existence de variations importantes dans le langage médical spécialisé.

Pour son prototype, l’hôpital cantonal a implémenté un canal d’extraction des données sur les tumeurs qui remplit les obligations inscrites dans la loi fédérale sur l’enregistrement des maladies oncologiques tout en déployant des solutions techniques novatrices. Les données sources sont sélectionnées à partir des applications utilisées par les cliniques ; elles passent par différentes étapes afin d’être préparées de telle sorte que les informations souhaitées soient extraites suivant des instructions précises. Les meilleurs résultats ont été obtenus avec des modèles de langage relativement petits (par ex. avec 70 milliards de paramètres), ce qui a permis de traiter les données dans le respect des prescriptions légales et des directives en matière de protection des données.

En ce qui concerne l’extraction des données au moyen de l’intelligence artificielle, plusieurs limites ont été constatées. Les modèles de langage utilisés sont ceux que l’on trouve en libre accès. L’entraînement avec ces modèles ne comprend donc que les cancers les plus courants, laissant de côté certaines maladies oncologiques. Par conséquent, il est plus difficile de traiter avec fiabilité les cas rares.

Autre obstacle : les données pertinentes pour le registre des tumeurs ne se trouvent pas toujours au même endroit dans les rapports, ce qui entraîne des incohérences. Des limites ont par ailleurs été mentionnées quant à la possibilité d’utiliser le prototype à plus grande échelle en raison de la suspension du projet national pour l’acquisition d’une solution suisse d’enregistement des maladies oncologiques.

L’hôpital cantonal conclut que sa solution peut en principe être reprise par d’autres hôpitaux. Il souligne toutefois dans son rapport que ce transfert ne pourrait pas être opéré sans adaptations. Les détails de la mise en œuvre technique sont publiés sous la forme d’un logiciel à code source ouvert, téléchargeable sur GitHub.

Contact

Chancellerie fédérale

Secteur Transformation numérique et gouvernance de l’informatique (TNI)

Monbijoustrasse 91
3003 Berne

dataspaces@bk.admin.ch

Imprimer contact

https://www.bk.admin.ch/content/bk/fr/home/digitale-transformation-ikt-lenkung/datenoekosystem_schweiz/prototypen/krebsdatenksb.html