Health Data Hub : le collectif Inter-Hop explique les dangers qui pèsent sur nos données de santé

Les origines de la plateforme Health Data Hub (HDH) remontent au rapport Villani du nom du député LREM remis au gouvernement en 2018. L’objet de ce rapport était d’identifier des secteurs de pointe pour permettre à la France d’être pionnière dans le domaine de l’intelligence artificielle. En d’autres termes, le secteur de l’IA représente un enjeu de souveraineté pour éviter que la France ne soit inféodée à des pays étrangers en particulier les Etats-Unis. Le choix de recourir à Microsoft pour la plateforme qui collectera l’ensemble des données de santé de la population semble vraiment incompréhensible. D’autant plus que des acteurs français comme OVH ou Scaleway existent. Quand on oppose cet argument, la réponse tient en deux points : ils ne disposent ni de la puissance de calcul nécessaire ni de la certification Hébergeur de données de santé (HDS)… Inter-Hop en ajoute un troisième :

Cela dit, OVH est une grosse société qui affirme elle-même être présente dans plus de 19 pays dans le monde. Comme indiqué dans ses conditions générales, OVH peut recourir à des sous-traitants - certains étant des filiales de la société mère, d’autres étant des sociétés n’appartenant pas au Groupe OVH - qui l’assistent dans le stockage et le traitement des données. Donc, on retrouverait une grosse partie du problème lié au contrat avec Microsoft Azure : on centralise toutes les données chez un même (gros) fournisseur de service qui, de son côté, a potentiellement déployé son infrastructure à travers une constellations d’États

Le média Lundi Matin retrace le parcours de la polémique qui entoure le projet de HDH en interrogeant le collectif Inter-Hop opposé à ce projet dans les conditions définies par le gouvernement. C’est l’occasion de revenir sur plusieurs aspects problématiques du HDH : le manque de transparence de la plateforme. Entre d’une part, les décrets pris en catimini dans la précipitation pendant la vague de l’épidémie du Covid-19, et d’autre part, l’impossibilité d’auditer le code source de la plateforme parce que la technologie de Microsoft est propriétaire.

La prolongation de l’état d’urgence sanitaire s’est traduite par la mise en place du fichier SI-DEP qui collecte les données des personnes atteintes du Covid-19. Comme le rappelle Lundi Matin, ces données sont envoyées vers les serveurs de Microsoft. Bien que l’état d’urgence sanitaire est levé, la transmission des données sur les serveurs du gafaM ne s’est pas arrêtée. Tout simplement parce qu’une bonne partie des éléments de l’état d’urgence sanitaire sont désormais entrés dans le droit commun.

Le collectif Inter-hop rappelle que la collecte des données de santé de la population n’est pas nouvelle. Plusieurs bases de données alimentées par l’Assurance Maladie notamment permettaient d’assurer un suivi des patients. (traitements, médecins consultés, informations liées à une hospitalisation..). Contrairement à ce qu’on pourrait penser, cette collecte était surtout un moyen de contrôler la gestion administrative et budgétaire d’un établissement de santé. Depuis la loi du 24 juillet 2019 qui introduit le projet du Health Data Hub, la collecte va bien plus loin et concerne quasiment la moindre activité liée à une prestation de santé couverte par l’Assurance-Maladie. La frontière entre traitement de données et fichage n’est pas très loin comme le démontre l’exemple du fichier Si-VIC créé à la suite des attentats de 2015 qui a été élargi au traitement des blessés lors des manifestations des Gilets Jaunes.

Pourtant, d’après le Canard Enchaîné du 17 avril 2020, certaines fiches de personnes admises dans les hôpitaux de Paris en 2019, en marge des manifestations de gilets jaunes, faisaient mention de la nature des blessures, permettant ainsi d’identifier et, donc, de tracer les manifestants blessés.

Cet entretien est l’occasion de rappeler que la pseudonymisation des données, garantit par la loi liée aux données de santé, n’est pas infaillible. Par inférence ou par recoupement de jeux de données, on peut aisément ré-identifier une personne.

L'Université de Louvain et l’Imperial College de Londres ont montré que 83% des Américains peuvent être ré-identifiés en utilisant seulement trois variables : le genre, la date de naissance et le code postal, données qui sont par exemple compilées dans le fichier OSCOUR. En présence de 15 variables, la personne peut être ré-identifiée dans 99,98% des cas.

On apprend également que l'argument du chiffrement des données assuré par le Health Data Hub ne tient pas la route car Microsoft a besoin d'accéder aux données pour faire tourner des programmes afin d'alimenter et d'entraîner son intelligence artificielle.

L’audience devant le Conseil d’État a aussi permis de mettre à jour que la Plateforme technique utilise, pour son fonctionnement usuel, 40 logiciels de Microsoft Azure. Ces logiciels, ces programmes, sont utilisés pour analyser les données hébergées, à l’image d’un énorme tableur Microsoft Excel dans lequel une giga-entreprise ferait ses calculs de comptabilité. S’il est possible de chiffrer vraiment des données lorsqu’on les confie à une société chargée uniquement de les héberger, le chiffrage n’est plus possible si la société qui les héberge doit également les analyser, les passer dans la moulinette de plusieurs programmes informatiques.

Un entretien à lire si vous souhaitez comprendre les risques introduits par le Health Data Hub sur nos données de santé (fuite des données de 67 millions de personnes aux 4 coins de la planète, accès des données accordées à des mutuelles ou des assurances, Cloud Act US...).Par ailleurs, Inter-Hop n'est pas seulement dans la critique. Il formule également des propositions alternatives qui permettraient d'utiliser les technologies modernes tout en étant en adéquation avec une éthique médicale dans l'intérêt des patients.

#HealthDataHub


Source : Lundi Matin