Mieux évaluer les modèles de cartographie globale en écologie

Une récente étude montre qu’une méthodologie, couramment utilisée pour évaluer les performances prédictives des modèles de cartographie écologiques basés sur l’intelligence artificielle, mène à des résultats biaisés. Ces travaux publiés dans la revue Nature Communications par des chercheurs de l’UMR AMAP et de l’UR Forêts & Sociétés appellent à adopter des pratiques de validation des modèles cartographiques plus fiables.

Pour tenter de répondre aux défis des changements environnementaux, les scientifiques s’appuient de plus en plus sur la modélisation spatiale de variables écologiques à l’échelle globale. Des chercheurs de l’IRD et du CIRAD alertent sur l’approche méthodologique suivie pour produire ces cartes et suggèrent que leur fiabilité a été largement surestimée.

L’ABC de la construction des cartes globales

Ces dernières années, des dizaines de cartes globales ont été publiées – souvent dans des revues de haut rang : répartition spatiale des stocks de carbone forestier, de son évolution dans le temps, potentiel de restauration des régions déboisées, abondance de divers organismes vivants (champignons, vers de terre), etc. Cette dynamique récente s’explique notamment par la démocratisation de l’accès à des plateformes de données partagées et de calcul en ligne – comme Google Earth Engine – qui, alliées aux progrès des méthodes d’apprentissage automatique dites « machine learning »^?, permettent désormais aux scientifiques d’analyser de très grands volumes de données. Constatant des incohérences entre les cartes écologiques produites à l’échelle globale et les mesures de terrain, des écologues et des modélisateurs décident de creuser la question. « Afin d’illustrer le problème, nous avons choisi l’évaluation des stocks de carbone forestier en Afrique centrale pour reproduire pas à pas l’approche mise en cause », livre Pierre Ploton, post-doctorant à l’UMR AMAP. Les données proviennent d’importants inventaires de terrain [photo 1] réalisés par les compagnies forestières en Afrique centrale - plus de 11 millions d’arbres concernés. Couvrant une vaste région de la côte atlantique gabonaise à la République démocratique du Congo, ces données permettent de calculer la biomasse (et donc la quantité de Carbone) contenue dans la partie aérienne des arbres dans des échantillons de forêts de composition variée sous divers climats.

Pour cartographier la quantité de carbone contenue dans l’ensemble des forêts d’Afrique centrale, il faut, à partir des données d’inventaires d’extension limitée - même si d’une ampleur inégalée - être capable de prédire les quantités attendues là où les forêts n’ont pas pu être mesurées. Cette prédiction est réalisée à l’aide d’un modèle, car il n’existe pas encore d’instrument capable de mesurer le carbone forestier partout sur la Terre, depuis un satellite en orbite par exemple. Les chercheurs « apprennent » donc à un algorithme à prédire la quantité de carbone mesurée dans les inventaires en fonction d’un certain nombre de facteurs (les « prédicteurs » du modèle) qui eux sont mesurables de manière continue à la surface du Globe. Ces derniers peuvent être des caractéristiques environnementales (la température, la pluviométrie, etc.) ou des images satellitaires (de la réflectance^? [fig 3] des surfaces continentales, par exemple). Les relations établies entre les prédicteurs et le stock de carbone mesuré dans les inventaires forestiers, permettent, par inversion du modèle, de prédire les valeurs inconnues du stock de Carbone pour des zones où les prédicteurs, eux, sont disponibles.

La validation : point clé des modèles cartographiques

Le point clé de la démarche est l’étape de « validation » du modèle. Elle consiste à évaluer la précision des prédictions à partir de mesures qui n’ont pas servi à l’apprentissage du modèle. Pour ce faire, les données de référence sont divisées en deux lots, l’un servant à l’apprentissage du modèle, l’autre à la validation des prédictions. En fait c’est la stratégie choisie pour diviser les données en lots qui est à l’origine du biais méthodologique relevé par les chercheurs d’AMAP et de Forêts et Sociétés. L’approche communément employée, qui consiste à diviser aléatoirement le jeu de données en lots de calibration et de validation, ne prend pas en compte une caractéristique fondamentale de la plupart des données biologiques, l’autocorrélation spatiale.

Autocorrélation spatiale : un phénomène aux effets pervers

L’autocorrélation spatiale est un phénomène bien connu en écologie. Il traduit le fait que des mesures biologiques réalisées dans des localisations proches les unes des autres auront tendance à être plus similaires que celles réalisées dans des sites éloignés. Ce phénomène s’explique par la nature même des processus biologiques qui sont souvent « contagieux » : un arbre dissémine ses graines dans son voisinage immédiat et non aléatoirement dans l’espace ; une maladie se propage de proche en proche, rarement par grands sauts, etc. En sélectionnant aléatoirement dans l’espace les données utilisées pour la validation du modèle, celles-ci ont de fortes chances d’avoir des caractéristiques très similaires à celles des données d’apprentissage, pour des raisons qui ne sont pas liées à la qualité des prédicteurs, mais à l’autocorrélation spatiale des données analysées. Cette difficulté, bien connue en statistique, mais trop souvent ignorée dans les travaux de cartographie écologique, a pour conséquence de surestimer la qualité prédictive du modèle. « Dans notre étude sur les stocks de carbone forestier, ajoute Pierre Ploton, l’ampleur du problème est mise en exergue : en sélectionnant aléatoirement dans l’espace les données de validation, le modèle suggère que l’on sait prédire les stocks de carbone forestier n’importe où en Afrique centrale avec une erreur inférieure à 20 %, alors qu’une stratégie de validation alternative qui prend en compte l’autocorrélation spatiale, montre que le pouvoir prédictif de ces modèles est proche de zéro ! ». En d’autres termes, les modèles proposés ne permettent pas de prédire de manière fiable les stocks de carbone forestier en dehors des sites inventoriés. Ces conclusions jettent un sérieux pavé dans la mare d’une tendance émergente de la « big ecology » qui consiste à cartographier de nombreuses variables écologiques à l’échelle globale en utilisant ce type d’approche. Au travers de cette étude, les chercheurs appellent à de meilleures pratiques méthodologiques dans la validation des modèles de cartographie des variables écologiques à l’échelle globale notamment les cartes de stocks de carbone forestier sur lesquels s’appuient les projections de l’effet des forêts sur la régulation du climat.

Actualité reprise du site de l'IRD

Published: 17/11/2020