Description du jeu de données MAPLES-DR

Le projet a été initialement motivé, en 2018, par l’absence de grands ensembles de données publics de fonds d’œil fournissant des segmentations au niveau du pixel des structures anatomiques et pathologiques de la rétine. Ces ensembles de données sont pourtant particulièrement précieux dans un contexte où les modèles d’apprentissage profond qui atteignent l’état de l’art du diagnostic automatique de la DR sont critiqués pour leur manque d’explicabilité ou d’interprétabilité.

Nous avons conçu MAPLES-DR pour combler cette lacune en fournissant des cartes de segmentation des structures anatomiques (disque et cupule optique, macula, vaisseaux) et pathologiques (micro-anévrismes, hémorragies, néovascularisations, exsudats, nodules cotonneux, drusens) pour près de 200 images du jeu de données public MESSIDOR. Les annotations ont été réalisées par une équipe de sept rétinologues seniors des hôpitaux de Toronto et Montréal (Canada).

MAPLES-DR inclut également des grades pour la DR et ME qui suivent les directives canadiennes de dépistage en télémédecine [1]. Ces directives sont plus proches des standards internationaux [2] [3] que les diagnostics fournis par MESSIDOR.

Description des annotations

../_images/MAPLES-DR_Content_Overview.svg

Aperçu des annotations de MAPLES-DR.

Carte de segmentation des structures rétiniennes

Les structures anatomiques rétiniennes sont évidemment présentes dans toutes les images, y compris les images saines, mais leur apparence et leur proximité avec les lésions fournissent des informations précieuses pour le diagnostic de la DR.

Les vaisseaux sont indicatifs du stade de la DR : une augmentation de la tortuosité artériolaire est associée aux stades légers et modérés [4], tandis que le rétrécissement et la dilatation veineuse sont des symptômes des stades prolifératifs sévères. L’arbre vasculaire est également utilisé comme référence pour évaluer la lisibilité d’une image.

Le disque optique, la cupule optique et la macula sont également inclus dans MAPLES-DR. Leur objectif pour le diagnostic est double. Premièrement, le ME est classée en comptant le nombre de lésions dans un ou deux diamètres de disque optique de la macula, ce qui implique l’annotation de ces deux structures anatomiques. De même, les définitions cliniques de la gravité de la DR distinguent souvent quatre quadrants en divisant la rétine horizontalement par une ligne passant par la fovéa et le disque optique (division supérieure / inférieure) et verticalement par une ligne passant par la fovéa (division temporale / nasale) [5]. Deuxièmement, les positions des lésions par rapport à ces structures saines peuvent indiquer différentes étiologies et gravités. Par exemple, les directives cliniques distinguent parfois la néovascularisation du disque et les autres néovascularisations.

Avertissement

Un échantillon du jeu d’entraînement est centré sur le disque optique plutôt que sur la macula qui n’est pas visible sur cette image. Aucune segmentation de la macula n’est donc fournie pour cette image.

De même, quatre échantillons de l’ensemble d’entraînement et deux échantillons de l’ensemble de test ne disposent pas d’une segmentation de la cupule optique car leurs frontières ont été jugées trop ambiguës par les rétinologues.

Accéder à ces cartes de segmentation renverra un masque vide et affichera un avertissement. Pour exclure ces images du jeu de données utilisez : func:maples_dr.configure(exclude_missing_macula=True) <maples_dr.configure> ou maples_dr.configure(exclude_missing_cup=True).

Segmentation des lésions rouges

Le diabète affecte les parois des vaisseaux, causant des dysfonctionnements micro-vasculaires qui se manifestent dans la rétine sous forme de micro-anévrismes, d’hémorragies, d’anomalies micro-vasculaires rétiniennes (IRMA), ou de néovaisseaux. Ces structures pathologiques sont appelées « lésions rouges ».

Les micro-anévrismes apparaissent comme de petites dilatations circulaires des capillaires. Ils sont un symptôme précoce de dysfonctionnement micro-vasculaire et sont couramment utilisés pour détecter une DR légère.

Les hémorragies rétiniennes se développent dans les stades plus avancés de la pathologie et sont divisées en hémorragies ponctuées (dot hemorrhages) ou en taches (blot hemorrhages). Les hémorragies ponctuées apparaissent comme des points circulaires et bien définies et sont généralement causées par la rupture d’un micro-anévrisme. Les distinguer des micro-anévrismes est difficile, et seule l’angiographie rétinienne (FA) peut les différencier avec certitude. Les hémorragies en taches sont plus grandes et ont des bords moins définis. Dans MAPLES-DR, les deux ont été annotées comme des hémorragies. Des hémorragies superficielles (en forme de flamme) et des hémorragies vitreuses peuvent aussi apparaître dans les stades les plus sévères de la rétinopathie, aucune n’a été découverte dans l’ensemble de données MAPLES-DR.

À partir du stade modéré non prolifératif (R2), des vaisseaux rétiniens intra-rétiniens irréguliers peuvent apparaître, appelés IRMA. Le stade suivant de la maladie (R3) coïncide avec des changements intra-rétiniens encore plus importants, qui sont des prédicteurs de l’aggravation de la maladie. En effet, la présence de IRMA indique un risque de 50% de développer une néovascularisation dans l’année qui suit, ce qui correspond à une transition vers le stade prolifératif de la maladie. Les fuites des néovascularisations importantes sont responsables d’hémorragies pré-rétiniennes et vitreuses qui peuvent causer une perte visuelle majeure. Sur l’image du fond d’œil, les néovascularisations sont difficiles à distinguer des IRMA ; cependant, l’angiographie à la fluorescéine peut révéler une fuite qui sert de facteur discriminant entre les deux. En l’absence de cette modalité d’imagerie, les IRMA ne sont pas différenciées des néovascularisations dans MAPLES-DR.

Segmentation des lésions claires

Dans les stades sévères de la DR, la rétine s’épaissit (formation d’œdème) et des exsudats durs peuvent apparaître, causant potentiellement une perte d’acuité visuelle. Ces dépôts proviennent généralement de fuites des capillaires endommagés. De plus, en cas d’ischémie, on peut observer un blocage du transport axonal (le mouvement des mitochondries, des lipides, des protéines et d’autres substances à l’intérieur du corps de l’axone, permettant son renouvellement) dans la couche des fibres du nerf optique.

Cela peut conduire à l’apparition de lésions connues sous le nom de nodules cotonneux (CWS) résultant d’accumulations axoplasmiques. Ils sont caractérisés par leur apparence blanche et leurs bords flous. Alors que leur étiologie principale est la rétinopathie diabétique, les CWS peuvent également être observés dans d’autres maladies vasculaires (hypertension artérielle systémique, obstruction veineuse, coagulopathies…)

Enfin, MAPLES-DR fournit également des annotations des drusens. Ces lésions sont plus couramment associées à la dégénérescence maculaire liée à l’âge (AMD), avec une prévalence variant de 10% (cinquième décennie de vie) à 35% (septième décennie). Ils apparaissent généralement autour de la macula et sont histologiquement situés à l’interface avec l’épithélium pigmentaire rétinien (RPE). Il est supposé qu’ils proviennent de produits dégénératifs des cellules du RPE et sont composés de lipides et de glycoprotéines. La classification des stades précoces de AMD s’appuie sur l’estimation de la taille des drusens.

Grades de DR et de ME

Les grades de DR et de ME de MAPLES-DR suivent les directives développées pour le dépistage de la DR par télémédecine au Canada. Ces directives distinguent six grades pour la DR:

  • R0: absente

  • R1: légère

  • R2: modérée

  • R3: sévère

  • R4A: proliférative

  • R4S: proliférative traitée et stable

  • R6: qualité insuffisante pour un diagnostic fiable

et trois pour la ME :

  • M0: absente

  • M1: légère

  • M2: modérée

  • M6: qualité insuffisante pour un diagnostic fiable

Les grades sont définis par le nombre et la position des lésions rétiniennes rouges et claires visibles. Chaque grade est associé à un plan d’action recommandé (depuis une nouvelle visite dans deux ans pour les cas légers, à une prise en charge immédiate par un ophtalmologiste pour les cas les plus sévères).

Une définition détaillée du système de gradation est accessible dans cet article [1].

Structure des données

Le jeu de données MAPLES-DR est distribué sous la forme de deux archives : MAPLES-DR.zip et AdditionalData.zip. La première contient les données finales de MAPLES-DR (cartes de segmentation et grades). La seconde contient des informations complémentaires collectées lors du processus d’annotation (temps, commentaires) ainsi que les données intermédiaires (cartes de pré-annotation, grades avant consensus…).

MAPLES-DR.zip

MAPLES-DR.zip est l’archive principale du jeu de données. Elle est divisée en deux dossiers train/ et test/, chacun contenant un fichier diagnosis.csv avec les grades finaux de DR et de ME ainsi que 12 sous-dossiers : un pour chaque biomarqueur. Ces dossiers stockent les cartes de segmentation sous forme d’images binaires png nommées suivant la nomenclature de MESSIDOR (e.g. 20051019_38557_0100_PP.png). L’ensemble d’entraînement est composé de 138 images, tandis que l’ensemble de test en contient 60.

../_images/MAPLES-DR_Data_Record_main.svg

Aperçu de l’archive principale de MAPLES-DR : MAPLES-DR.zip.

Avertissement

L’image 20051020_55346_0100_PP est centrée sur le disque optique et sa macula n’est pas visible. Pour éviter toute confusion, la carte de segmentation de sa macula a été retirée de MAPLES-DR.zip/train/Macula/ qui ne contient donc que 137 images.

De plus, pour six images (4 dans l’ensemble d’entraînement et 2 dans l’ensemble de test), les frontières de la cupule optique ont été jugées trop ambiguës par les rétinologues pour une annotation correcte. Aucune carte de segmentation de la cupule optique n’est donc fournie pour ces images réduisant le nombre d’images dans MAPLES-DR.zip/train/OpticCup/ et MAPLES-DR.zip/test/OpticCup/ à respectivement 134 et 58 images.

Note

Les cartes de segmentation de MAPLES-DR.zip ont été redimensionnées pour correspondre à la résolution des images originales de MESSIDOR, qui varient en dimensions (allant de 960x1440 à 1536x2304 pixels). Pour les applications nécessitant une résolution homogène (par exemple l’entraînement de réseau de neurones), nous vous conseillons d’utiliser le paquet python maples_dr pour recadrer et redimensionner les images et les cartes de segmentation à une résolution commune.

AdditionalData.zip

La seconde archive contient toutes les informations et données additionnelles collectées lors du processus d’annotation. C’est également la seule archive téléchargée et utilisée par la bibliothèque maples_dr. En effet, parce que AdditionalData.zip inclut toutes les annotations et pré-annotations dans la résolution à laquelle elles ont été annotées (1500x1500 pixels), ainsi que les diagnostics individuels notés par chaque rétinologue, toutes les données propre à l’archive MAPLES-DR.zip peuvent en être dérivées.

Note

Note sur les doublons : initialement, MAPLES-DR comptait des annotations pour 200 images. Mais à la fin de la campagne d’annotation, nous avons pris connaissance que deux de ces images faisaient parties des doublons de l’ensemble de données original MESSIDOR (des images dupliquées, stockées sous deux noms différents). Ces 2 doublons ont été retirés de MAPLES-DR.zip, mais ont été conservés dans AdditionalData.zip à des fins de transparence.

../_images/MAPLES-DR_Data_Record_additional.svg

Aperçu de l’archive complémentaire : AdditionalData.zip.

L’archive AdditionalData.zip contient les fichiers suivants :

  • biomarkers_annotations_infos.xls: identifie quel rétinologue (Retinologist) a réalisé l’annotation d’une catégorie de biomarqueur donnée, le temps (Time) passé sur chaque annotation (en secondes), les commentaires (Comment) laissés, et le rang de l’annotation (Annotation#: 1 pour la première image annotée, 200 pour la dernière).

  • diagnosis_infos.xls: contient les grades de DR et de ME annotés par chaque rétinologue ainsi que le grade consensuel atteint après délibération. Il inclut également les commentaires laissés par les rétinologues lors du diagnostic.

  • MESSIDOR-ROIs.csv: fournit les regions d’intérêt extraites des images de MESSIDOR pour obtenir des régions carrées et sans bordures. Les coordonnées des régions d’intérêt sont définies par les coordonnées de leur coin supérieur gauche (x0, y0) et inférieur droit (x1, y1) en pixels. Ce fichier inclut également la résolution originale en pixels des images de MESSIDOR : H et W (resp. la hauteur et la largeur).

  • dataset_record.yaml: un fichier yaml contenant le nom des biomarqueurs (biomarkers), la définition des ensembles d’entraînement et de test (train et test) sous forme de listes de noms d’images, et le nom des doublons associés au nom de leur « jumeau » dans l’ensemble d’entraînement de MAPLES-DR.

  • annotations/: ce dossier contient 12 sous-dossiers (un pour chaque biomarqueur), qui contiennent à leur tour les 200 cartes de segmentation annotées par les rétinologues (entraînement, test et doublons confondues). Une carte de segmentation a été retirée du dossier Macula et 6 ont été retirées du dossier OpticCup (voir avertissement ci-dessus). Toutes les cartes de segmentation sont stockées sous forme de masques binaires png dans la résolution à laquelle elles furent annotées (1500x1500 pixels) et en utilisant les régions d’intérêt décrites dans le fichier MESSIDOR-ROIs.csv.

  • pre_annotations/: ce dossier contient les segmentations automatiques des vaisseaux, des exsudats, des hémorragies et des micro-anévrismes fournies comme pré-annotations aux rétinologues.

Procédure d’annotation

La procédure d’annotation a été co-conçue avec l’équipe de rétinologues pour répondre à un triple objectif :

  1. Fournir un outil d’annotation intuitif mais efficace pour la classification et la segmentation des biomarqueurs dans les images de fond d’œil.

  2. Permettre un effort collaboratif sur des annotations communes malgré la distance géographique entre les rétinologues et le temps limité que chacun pouvait consacrer à ce programme.

  3. Concevoir un protocole d’annotation « scalable », capable d’être étendu à des campagnes d’annotation beaucoup plus ambitieuses, telles que l’étiquetage de grandes bases de données canadiennes de télémédecine contenant des dizaines de milliers d’images.

Pour relever ces défis, nous avons développé une plateforme d’annotation web personnalisée permettant le fonctionnement suivant : les annotateurs experts peuvent accéder au portail Web à tout moment pour consulter et modifier les annotations avec des outils de dessin spécialisés ; ces annotations et les informations associées (temps d’annotation, commentaires) sont centralisées et stockées dans une base de données sécurisée hébergée sur notre serveur de laboratoire ; en tant qu’équipe de recherche, nous attribuons des tâches aux annotateurs, surveillons les progrès et exportons les annotations via une API Python. La plateforme d’annotation (portail, outils d’annotation, serveur backend et API Python) ainsi que le matériel de formation pour les annotateurs sont disponibles sur GitHub.

Pour plus de détails sur le processus d’annotation, veuillez vous référer à l’article MAPLES-DR [6].

Bibliographie