AVES
  • Accueil
  • Home
  • Éco-Solutions
    • Plantation d'Arbres
    • Brise-vents
    • Désherbage à l'ancienne
    • Aménagements Intégrés >
      • Petit Pré
      • Lot Mixte Tempéré
      • Cour de Conifères
  • Eco-Solutions
    • Tree Planting
    • Windbreaks
    • Weeding
    • Integrated Landscapes >
      • Boreal Backyard
      • Mini Meadow
      • Temperate Mixed-Lot
  • À Propos
  • About
  • Contact
  • Contact
  • ESSAIS
  • ESSAYS
  • Accueil
  • Home
  • Éco-Solutions
    • Plantation d'Arbres
    • Brise-vents
    • Désherbage à l'ancienne
    • Aménagements Intégrés >
      • Petit Pré
      • Lot Mixte Tempéré
      • Cour de Conifères
  • Eco-Solutions
    • Tree Planting
    • Windbreaks
    • Weeding
    • Integrated Landscapes >
      • Boreal Backyard
      • Mini Meadow
      • Temperate Mixed-Lot
  • À Propos
  • About
  • Contact
  • Contact
  • ESSAIS
  • ESSAYS

La Beauté des Modèles

element_settings.Image+Text_94464494.default
PATRICK J. TURGEON
AVES · JUIN 2020

Les modèles sont de toute beauté.

Juste pour être clair,​ je parle de modèles statistiques.
Les modèles sont des outils puissants qui nous permettent de trouver et de quantifier des relations dans le monde. En effet, AVES utilise des modèles pour déterminer quelles espèces d'arbres sont les meilleures pour lutter contre le changement climatique en modélisant la croissance des arbres au fil du temps.
Photo
Non, pas ce genre de modèle
Qu'est-ce qu'un modèle?

En termes simples, la modélisation consiste à trouver la meilleure façon d'ajuster une ligne (ou plusieurs lignes) à travers des données. Cela nous permet de déterminer la valeur d'une variable (la variable dépendante) à partir d'une ou plusieurs autres variables (les variables indépendantes). Dans notre cas, AVES vise à identifier le diamètre d'un arbre en fonction de son âge. Le diamètre nous permettra ensuite d'utiliser des équations plus complexes pour estimer le nombre total d'atomes de carbone stockés dans un arbre d'une certaine espèce au cours de sa vie (le potentiel de séquestration du carbone de l'arbre).
Types de Modèles: Linéaires et Additifs

Les modèles linéaires et additifs (figures 1 et 2, respectivement) sont deux types de modèles utilisés pour les statistiques. Les modèles linéaires sont de loin certains des modèles les plus courants et les plus utiles. Ils nous donnent une formule avec un paramètre de régression qui quantifie la relation entre les variables dépendantes et les
variables indépendantes. Bien que les modèles linéaires ne soient pas limités aux lignes droites, les modèles ont parfois besoin plus de «flexibilité» pour s'adapter à des motifs plus vacillants. Dans ce cas, nous pouvons appliquer des modèles additifs qui utilisent quelque chose appelé des «techniques de lissage» pour modéliser correctement les données.
Photo
Figure 1. Exemple d'un modèle linéaire
Photo
Figure 2. Exemple d'un modèle additif

Validation du Modèle:
​

Les modèles décrits ci-dessus ont besoin de données qui remplissent certaines conditions pour être valides―autrement dit, nous devons vérifier que les modèles ne violent pas les hypothèses sous-jacentes pour être sûrs qu'ils fonctionnent correctement. Ces conditions comprennent la variance égale (également appelée l’homogénéité), la normalité, l'indépendance et les variables déterministes. Ici, nous discuterons uniquement la variance pour rester bref:

La Variance:
​

La variance est une mesure de la dispersion des données. C'est l'un des aspects les plus importants de la modélisation car plus il y a de variabilité dans les données, plus il y a de l'incertitude dans le modèle.

Comme mentionné auparavant, les modèles linéaires et additifs doivent avoir une variance égale (l
'homogénéité). Cependant, les données ne se comporteront pas souvent ainsi. Pensez à cet exemple intuitif: dans une course de 10 secondes avec cinq coureurs, la variance augmentera avec le temps car au temps zéro, tous les coureurs sont sur un pied d'égalité au point de départ et ce n'est qu'avec le temps que les coureurs peuvent s'éloigner les uns des autres. Si nous gardons les choses simples et supposons qu'aucun coureur dépasse les autres une fois la course commencée, nous aurons une forme d'entonnoir dans la structure de variance où les coureurs les plus rapides s'éloigneront progressivement des coureurs les plus lents à mesure que le temps passe. Bien que dans cet exemple, nous voyons clairement la structure de la variance lorsque nous créons une représentation graphique de nos données (figure 3), une approche courante pour vérifier la variance consiste à examiner les résidus (figure 4) qui est la valeur observée moins la valeur ajustée (c'est-à-dire, à quelle distance nos données sont de la ligne du modèle).
Photo
Figure 3. Graphique montrant la distance parcourue par les coureurs après un temps donné
Photo
Figure 4. Résidus montrant l’hétérogénéité (une variance inégale)

Le même principe s'applique à de nombreux autres phénomènes écologiques comme la croissance des arbres. Plus le temps passe, plus un arbre a eu l'occasion de croître différemment des autres. Par conséquent, nous pouvons nous attendre à une violation du principe d'homogénéité et nous devons en tenir compte dans la façon dont nous modélisons nos données.

MCG (Moindres Carrés Généralisés):

À l'aide du MCG, nous pouvons appliquer diverses paramétrisations mathématiques pour tenir compte d'une dispersion non égale (aussi appelée l’hétérogénéité) dans la structure de la variance. Sans entrer dans les détails, nous modéliserons trois structures de variance – nous les appellerons structure de variance 1, 2 et 3 (noms très créatifs, je sais).

Sélection des Modèles

Maintenant que nous avons un ensemble de modèles potentiels, comment décider lequel est le meilleur? Nous suivons simplement la maxime «tout doit être aussi simple que possible, mais pas plus simple». Heureusement pour nous, nous pouvons calculer cela en utilisant un test AIC (
critère d'information d'Akaike). L'AIC trouve le juste équilibre entre l'ajustement d'un modèle à nos données et sa complexité (le nombre de paramètres) puis attribue à chaque modèle une valeur numérique qui reflète sa «qualité». Le modèle avec le score AIC le plus bas est le meilleur modèle *.
Photo
Formule pour obtenir le score AIC. LogL(θ‖y) est le maximum de vraisemblance du modèle et K est le nombre de paramètres. Soyons honnêtes, de nos jours tout cela est fait par des logiciels statistiques.

​Nous prenons tous les modèles que nous avons créés avec les différentes structures de variance et les comparons les uns aux autres en utilisant l'AIC:
Modèle                                        Score AIC
Modèle
original                           22079.49
Structure
de Variance 1              20689.13
Structure de Variance 2              20557.77
Structure
de Variance 3               21102.41
Nous voyons que le meilleur modèle est celui avec la structure de variance 2 car il a le score AIC le plus bas.
Validation finale du modèle

Si nous utilisons la modélisation
MCG, nous devons toujours valider notre modèle en recherchant des signes d'hétérogénéité qui pourraient compromettre l'efficacité du modèle. Puisque notre modèle permet maintenant l'hétérogénéité dans les résidus ordinaires, nous recherchons donc l'hétérogénéité en inspectant graphiquement les résidus standardisés. Nous obtenons les résidus standardisés en calculant les valeurs observées moins les valeurs ajustées, puis en les divisant par la racine carrée de la variance. Voici les résidus ordinaires (figure 5) et les résidus standardisés (figure 6) obtenus à partir des données du micocoulier occidental (Celtis occidentalis) de la région de Montréal:
Photo
Figure 5. Résidus ordinaires montrant un motif en forme d'entonnoir
Photo
Figure 6. Résidus standardisés ne montrant aucun motif visible

C'est de toute beauté! La forme de l'entonnoir a disparu et il n'y a aucun motif évident dans le graphique. Nous pouvons maintenant utiliser notre modèle pour déterminer une valeur attendue pour le diamètre d’un arbre de cette espèce après un certain nombre d'années*:
Photo
Figure 7. Données pour l'âge par rapport au diamètre (les points) ainsi que le diamètre attendu pour une année donnée (la ligne) basée sur notre modèle pour les micocouliers occidental (Celtis occidentalis) dans la région de Montréal.
Photo
Micocoulier occidental (Celtis occidentalis)

L'étape suivante consiste à entrer la valeur du diamètre ainsi que d'autres mesures dans une équation d'arbre publiée pour obtenir un «bioscore» représentant le potentiel de séquestration du CO2 pour cette espèce.
​

AVES améliore constamment ses modèles et travaille maintenant sur des modèles qui prennent en compte des variables supplémentaires (par exemple, des facteurs environnementaux et d'habitat). J'espère avoir votre soutien lorsque j'entreprendrai cette entreprise difficile mais épanouissante.
​
Signaler une erreur ou envoyer une suggestion 
Notes:
* Il existe de nombreux aspects importants tels que l'exploration initiale des données, la signification des variables, etc. qui ne sont pas mentionnés dans ce texte
* Les données de la figure 3 ne sont pas indépendantes car nous prenons des mesures répétées, mais l'exemple est utilisé uniquement pour comprendre / visualiser la variance

* Attribuer le score AIC le plus bas au meilleur modèle est une simplification excessive car il ne tient pas compte des paramètres non informatifs, mais cela dépasse le cadre de ce texte; voir Arnold (2010) pour plus de détails
* En raison du manque de données pour certaines espèces, d'autres moyens non décrits ici ont été utilisés pour obtenir des valeurs de diamètre pour ces espèces
Sources (en anglais):

Arnold, T.W., 2010. Uninformative parameters and model selection using Akaike's Information Criterion. The Journal of Wildlife Management, 74(6), pp.1175-1178.

Burnham, K.P. and Anderson, D.R., 2002. A practical information-theoretic approach. 
Model selection and multimodel inference, 2nd ed. Springer, New York, 2.

Pinheiro, J., Bates, D., DebRoy, S., Sarkar, D., R Core Team 2020. nlme: Linear and Nonlinear Mixed Effects
Models
. R package version 3.1-147, <URL: https://CRAN.R-project.org/package=nlme>

R Core Team, 2020. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

Zuur, A., Ieno, E.N., Walker, N., Saveliev, A.A. and Smith, G.M., 2009. Mixed effects models and extensions in ecology with R. Springer Science & Business Media.

Images:
Modèle posant dans les arbres:​ jovibingelyte from Pixabay
Modèles statistiques: Patrick J. Turgeon made using R 2020
Celtis occidentalis: Chhe (public domain)
patrick@aves.eco
(438) 506-AVES
​
paypal.me/aveseco
​​© AVES 2020​