La Beauté des Modèles

Les modèles sont de toute beauté.
Juste pour être clair, je parle de modèles statistiques.
Juste pour être clair, je parle de modèles statistiques.
Les modèles sont des outils puissants qui nous permettent de trouver et de quantifier des relations dans le monde. En effet, AVES utilise des modèles pour déterminer quelles espèces d'arbres sont les meilleures pour lutter contre le changement climatique en modélisant la croissance des arbres au fil du temps.
Qu'est-ce qu'un modèle?
En termes simples, la modélisation consiste à trouver la meilleure façon d'ajuster une ligne (ou plusieurs lignes) à travers des données. Cela nous permet de déterminer la valeur d'une variable (la variable dépendante) à partir d'une ou plusieurs autres variables (les variables indépendantes). Dans notre cas, AVES vise à identifier le diamètre d'un arbre en fonction de son âge. Le diamètre nous permettra ensuite d'utiliser des équations plus complexes pour estimer le nombre total d'atomes de carbone stockés dans un arbre d'une certaine espèce au cours de sa vie (le potentiel de séquestration du carbone de l'arbre). |
Types de Modèles: Linéaires et Additifs
Les modèles linéaires et additifs (figures 1 et 2, respectivement) sont deux types de modèles utilisés pour les statistiques. Les modèles linéaires sont de loin certains des modèles les plus courants et les plus utiles. Ils nous donnent une formule avec un paramètre de régression qui quantifie la relation entre les variables dépendantes et les variables indépendantes. Bien que les modèles linéaires ne soient pas limités aux lignes droites, les modèles ont parfois besoin plus de «flexibilité» pour s'adapter à des motifs plus vacillants. Dans ce cas, nous pouvons appliquer des modèles additifs qui utilisent quelque chose appelé des «techniques de lissage» pour modéliser correctement les données.
Les modèles linéaires et additifs (figures 1 et 2, respectivement) sont deux types de modèles utilisés pour les statistiques. Les modèles linéaires sont de loin certains des modèles les plus courants et les plus utiles. Ils nous donnent une formule avec un paramètre de régression qui quantifie la relation entre les variables dépendantes et les variables indépendantes. Bien que les modèles linéaires ne soient pas limités aux lignes droites, les modèles ont parfois besoin plus de «flexibilité» pour s'adapter à des motifs plus vacillants. Dans ce cas, nous pouvons appliquer des modèles additifs qui utilisent quelque chose appelé des «techniques de lissage» pour modéliser correctement les données.
Validation du Modèle:
Les modèles décrits ci-dessus ont besoin de données qui remplissent certaines conditions pour être valides―autrement dit, nous devons vérifier que les modèles ne violent pas les hypothèses sous-jacentes pour être sûrs qu'ils fonctionnent correctement. Ces conditions comprennent la variance égale (également appelée l’homogénéité), la normalité, l'indépendance et les variables déterministes. Ici, nous discuterons uniquement la variance pour rester bref:
La Variance:
La variance est une mesure de la dispersion des données. C'est l'un des aspects les plus importants de la modélisation car plus il y a de variabilité dans les données, plus il y a de l'incertitude dans le modèle.
Comme mentionné auparavant, les modèles linéaires et additifs doivent avoir une variance égale (l'homogénéité). Cependant, les données ne se comporteront pas souvent ainsi. Pensez à cet exemple intuitif: dans une course de 10 secondes avec cinq coureurs, la variance augmentera avec le temps car au temps zéro, tous les coureurs sont sur un pied d'égalité au point de départ et ce n'est qu'avec le temps que les coureurs peuvent s'éloigner les uns des autres. Si nous gardons les choses simples et supposons qu'aucun coureur dépasse les autres une fois la course commencée, nous aurons une forme d'entonnoir dans la structure de variance où les coureurs les plus rapides s'éloigneront progressivement des coureurs les plus lents à mesure que le temps passe. Bien que dans cet exemple, nous voyons clairement la structure de la variance lorsque nous créons une représentation graphique de nos données (figure 3), une approche courante pour vérifier la variance consiste à examiner les résidus (figure 4) qui est la valeur observée moins la valeur ajustée (c'est-à-dire, à quelle distance nos données sont de la ligne du modèle).
Le même principe s'applique à de nombreux autres phénomènes écologiques comme la croissance des arbres. Plus le temps passe, plus un arbre a eu l'occasion de croître différemment des autres. Par conséquent, nous pouvons nous attendre à une violation du principe d'homogénéité et nous devons en tenir compte dans la façon dont nous modélisons nos données.
MCG (Moindres Carrés Généralisés):
À l'aide du MCG, nous pouvons appliquer diverses paramétrisations mathématiques pour tenir compte d'une dispersion non égale (aussi appelée l’hétérogénéité) dans la structure de la variance. Sans entrer dans les détails, nous modéliserons trois structures de variance – nous les appellerons structure de variance 1, 2 et 3 (noms très créatifs, je sais).
Sélection des Modèles
Maintenant que nous avons un ensemble de modèles potentiels, comment décider lequel est le meilleur? Nous suivons simplement la maxime «tout doit être aussi simple que possible, mais pas plus simple». Heureusement pour nous, nous pouvons calculer cela en utilisant un test AIC (critère d'information d'Akaike). L'AIC trouve le juste équilibre entre l'ajustement d'un modèle à nos données et sa complexité (le nombre de paramètres) puis attribue à chaque modèle une valeur numérique qui reflète sa «qualité». Le modèle avec le score AIC le plus bas est le meilleur modèle *.
Nous prenons tous les modèles que nous avons créés avec les différentes structures de variance et les comparons les uns aux autres en utilisant l'AIC:
Modèle Score AIC
Modèle original 22079.49
Structure de Variance 1 20689.13
Structure de Variance 2 20557.77
Structure de Variance 3 21102.41
Modèle original 22079.49
Structure de Variance 1 20689.13
Structure de Variance 2 20557.77
Structure de Variance 3 21102.41
Nous voyons que le meilleur modèle est celui avec la structure de variance 2 car il a le score AIC le plus bas.
Validation finale du modèle
Si nous utilisons la modélisation MCG, nous devons toujours valider notre modèle en recherchant des signes d'hétérogénéité qui pourraient compromettre l'efficacité du modèle. Puisque notre modèle permet maintenant l'hétérogénéité dans les résidus ordinaires, nous recherchons donc l'hétérogénéité en inspectant graphiquement les résidus standardisés. Nous obtenons les résidus standardisés en calculant les valeurs observées moins les valeurs ajustées, puis en les divisant par la racine carrée de la variance. Voici les résidus ordinaires (figure 5) et les résidus standardisés (figure 6) obtenus à partir des données du micocoulier occidental (Celtis occidentalis) de la région de Montréal:
Si nous utilisons la modélisation MCG, nous devons toujours valider notre modèle en recherchant des signes d'hétérogénéité qui pourraient compromettre l'efficacité du modèle. Puisque notre modèle permet maintenant l'hétérogénéité dans les résidus ordinaires, nous recherchons donc l'hétérogénéité en inspectant graphiquement les résidus standardisés. Nous obtenons les résidus standardisés en calculant les valeurs observées moins les valeurs ajustées, puis en les divisant par la racine carrée de la variance. Voici les résidus ordinaires (figure 5) et les résidus standardisés (figure 6) obtenus à partir des données du micocoulier occidental (Celtis occidentalis) de la région de Montréal:
C'est de toute beauté! La forme de l'entonnoir a disparu et il n'y a aucun motif évident dans le graphique. Nous pouvons maintenant utiliser notre modèle pour déterminer une valeur attendue pour le diamètre d’un arbre de cette espèce après un certain nombre d'années*:
L'étape suivante consiste à entrer la valeur du diamètre ainsi que d'autres mesures dans une équation d'arbre publiée pour obtenir un «bioscore» représentant le potentiel de séquestration du CO2 pour cette espèce.
AVES améliore constamment ses modèles et travaille maintenant sur des modèles qui prennent en compte des variables supplémentaires (par exemple, des facteurs environnementaux et d'habitat). J'espère avoir votre soutien lorsque j'entreprendrai cette entreprise difficile mais épanouissante.
Notes:
* Il existe de nombreux aspects importants tels que l'exploration initiale des données, la signification des variables, etc. qui ne sont pas mentionnés dans ce texte
* Les données de la figure 3 ne sont pas indépendantes car nous prenons des mesures répétées, mais l'exemple est utilisé uniquement pour comprendre / visualiser la variance
* Attribuer le score AIC le plus bas au meilleur modèle est une simplification excessive car il ne tient pas compte des paramètres non informatifs, mais cela dépasse le cadre de ce texte; voir Arnold (2010) pour plus de détails
* En raison du manque de données pour certaines espèces, d'autres moyens non décrits ici ont été utilisés pour obtenir des valeurs de diamètre pour ces espèces
* Il existe de nombreux aspects importants tels que l'exploration initiale des données, la signification des variables, etc. qui ne sont pas mentionnés dans ce texte
* Les données de la figure 3 ne sont pas indépendantes car nous prenons des mesures répétées, mais l'exemple est utilisé uniquement pour comprendre / visualiser la variance
* Attribuer le score AIC le plus bas au meilleur modèle est une simplification excessive car il ne tient pas compte des paramètres non informatifs, mais cela dépasse le cadre de ce texte; voir Arnold (2010) pour plus de détails
* En raison du manque de données pour certaines espèces, d'autres moyens non décrits ici ont été utilisés pour obtenir des valeurs de diamètre pour ces espèces
Sources (en anglais):
Arnold, T.W., 2010. Uninformative parameters and model selection using Akaike's Information Criterion. The Journal of Wildlife Management, 74(6), pp.1175-1178.
Burnham, K.P. and Anderson, D.R., 2002. A practical information-theoretic approach. Model selection and multimodel inference, 2nd ed. Springer, New York, 2.
Pinheiro, J., Bates, D., DebRoy, S., Sarkar, D., R Core Team 2020. nlme: Linear and Nonlinear Mixed Effects
Models. R package version 3.1-147, <URL: https://CRAN.R-project.org/package=nlme>
R Core Team, 2020. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
Zuur, A., Ieno, E.N., Walker, N., Saveliev, A.A. and Smith, G.M., 2009. Mixed effects models and extensions in ecology with R. Springer Science & Business Media.
Images:
Modèle posant dans les arbres: jovibingelyte from Pixabay
Modèles statistiques: Patrick J. Turgeon made using R 2020
Celtis occidentalis: Chhe (public domain)
Arnold, T.W., 2010. Uninformative parameters and model selection using Akaike's Information Criterion. The Journal of Wildlife Management, 74(6), pp.1175-1178.
Burnham, K.P. and Anderson, D.R., 2002. A practical information-theoretic approach. Model selection and multimodel inference, 2nd ed. Springer, New York, 2.
Pinheiro, J., Bates, D., DebRoy, S., Sarkar, D., R Core Team 2020. nlme: Linear and Nonlinear Mixed Effects
Models. R package version 3.1-147, <URL: https://CRAN.R-project.org/package=nlme>
R Core Team, 2020. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
Zuur, A., Ieno, E.N., Walker, N., Saveliev, A.A. and Smith, G.M., 2009. Mixed effects models and extensions in ecology with R. Springer Science & Business Media.
Images:
Modèle posant dans les arbres: jovibingelyte from Pixabay
Modèles statistiques: Patrick J. Turgeon made using R 2020
Celtis occidentalis: Chhe (public domain)