Coffee yield simulation using statistical and machine learning models - From the monitoring, to the seasonal and climate forecasting
Simulation de rendement agricoles à l'aide de modèles statistiques et d'apprentissage automatique. De la surveillance aux prévisions saisonnières et climatiques
Abstract
Crop yield simulation using statistical and machine learning models. From the monitoring to the seasonal and climate forecasting
par Thi Lan Anh Dinh
Thèse de doctorat en Sciences du climat, de l'atmosphère et des océans, terrestres et planétaire
La soutenance a eu lieu le 05-12-2022
Le document qui a justifié la délivrance du diplôme est en cours de traitement par la bibliothèque de l'établissement de soutenance.
Sous la direction de Filipe Aires.
Thèses en préparation à Sorbonne université , dans le cadre de École doctorale Sciences de l'environnement d'Île-de-France (Paris ; 1991-....) , en partenariat avec Laboratoire d’étude du rayonnement et de la matière en astrophysique et atmosphères (Paris ; 2002-....) (laboratoire) depuis le 14-01-2020 .
Description en français
Description en anglais
mots clés mots clés
Statistical modelling
Regression and classification
Crop yield estimation
Cross-validation
Calibration of climate model
Climate change impact
Résumé
Weather and climate strongly impact crop yields. Many studies based on different techniques have been done to measure this impact. This thesis focuses on statistical models to measure the sensitivity of crops to weather conditions based on historical records. When using a statistical model, a critical difficulty arises when data is scarce, which is often the case with statistical crop modelling. There is a high risk of overfitting if the model development is not done carefully. Thus, careful validation and selection of statistical models are major concerns of this thesis. Two statistical approaches are developed. The first one uses linear regression with regularization and leave-one-out cross-validation (or LOO), applied to Robusta coffee in the main coffee-producing area of Vietnam (i.e. the Central Highlands). Coffee is a valuable commodity crop, sensitive to weather, and has a very complex phenology due to its perennial nature. Results suggest that precipitation and temperature information can be used to forecast the yield anomaly with 3–6 months' anticipation depending on the location. Estimates of Robusta yield at the end of the season show that weather explains up to 36 % of historical yield anomalies. The first approach using LOO is widely used in the literature; however, it can be misused for many reasons: it is technical, misinterpreted, and requires experience. As an alternative, the “leave-two-out nested cross-validation” (or LTO) approach, is proposed to choose the suitable model and assess its true generalization ability. This method is sophisticated but straightforward; its benefits are demonstrated for Robusta coffee in Vietnam and grain maize in France. In both cases, a simpler model with fewer potential predictors and inputs is more appropriate. Using only the LOO method, without any regularization, can be highly misleading as it encourages choosing a model that overfits the data in an indirect way. The LTO approach is also useful in seasonal forecasting applications. The end-of-season grain maize yield estimates suggest that weather can account for more than 40 % of the variability in yield anomaly. Climate change's impacts on coffee production in Brazil and Vietnam are also studied using climate simulations and suitability models. Climate data are, however, biased compared to the real-world climate. Therefore, many “bias correction” methods (called here instead “calibration”) have been introduced to correct these biases. An up-to-date review of the available methods is provided to better understand each method's assumptions, properties, and applicative purposes. The climate simulations are then calibrated by a quantile-based method before being used in the suitability models. The suitability models are developed based on census data of coffee areas, and potential climate variables are based on a review of previous studies using impact models for coffee and expert recommendations. Results show that suitable arabica areas in Brazil could decrease by about 26 % by the mid-century in the high-emissions scenario, while the decrease is surprisingly high for Vietnamese Robusta coffee (≈ 60 %). Impacts are significant at low elevations for both coffee types, suggesting potential shifts in production to higher locations. The used statistical approaches, especially the LTO technique, can contribute to the development of crop modelling. They can be applied to a complex perennial crop like coffee or more industrialized annual crops like grain maize. They can be used in seasonal forecasts or end-of-season estimations, which are helpful in crop management and monitoring. Estimating the future crop suitability helps to anticipate the consequences of climate change on the agricultural system and to define adaptation or mitigation strategies. Methodologies used in this thesis can be easily generalized to other cultures and regions worldwide.
La météo et le climat ont un impact important sur les rendements agricoles. De nombreuses études basées sur différentes approches ont été réalisées pour mesurer cet impact. Cette thèse se concentre sur les modèles statistiques pour mesurer la sensibilité des cultures aux conditions météorologiques sur la base des enregistrements historiques. Lors de l'utilisation d'un modèle statistique, une difficulté critique survient lorsque les données sont rares, ce qui est souvent le cas pour la modélisation des cultures. Il y a un risque élevé de sur-apprentissage si le modèle n'est pas développé avec certaine précautions. Ainsi, la validation et le choix du modèle sont deux préoccupations majeures de cette thèse. Deux approches statistiques sont développées. La première utilise la régression linéaire avec régularisation et validation croisée (c.-à.-d. leave-one-out ou LOO), appliquée au café robusta dans la principale région productrice de café du Vietnam. Le café est une culture rémunératrice, sensible aux intempéries, et qui a une phénologie très complexe en raison de sa nature pérenne. Les résultats suggèrent que les informations sur les précipitations et la température peuvent être utilisées pour prévoir l'anomalie de rendement avec une anticipation de 3 à 6 mois selon la région. Les estimations du rendement du robusta à la fin de la saison montrent que les conditions météorologiques expliquent jusqu'à 36 % des anomalies de rendement historiques. Cette première approche de validation par LOO est largement utilisée dans la littérature, mais elle peut être mal utilisé pour de nombreuses raisons : elle est technique, mal interprétée et nécessite de l'expérience. Une alternative, l'approche “leave-two-out nested cross-validation” (ou LTO), est proposée pour choisir le modèle approprié, évaluer sa véritable capacité de généralisation et choisir la complexité du modèle optimale. Cette méthode est sophistiquée mais simple. Nous démontrons son applicabilité pour le café robusta au Vietnam et le maïs en France. Dans les deux cas, un modèle plus simple avec moins de prédicteurs potentiels et d'entrées est plus approprié. Utiliser uniquement la méthode LOO peut être très trompeur car cela encourage à choisir un modèle qui sur-apprend les données de manière indirecte. L'approche LTO est également utile dans les applications de prévision saisonnière. Les estimations de rendement du maïs en fin de saison suggèrent que les conditions météorologiques peuvent expliquer plus de 40 % de la variabilité de l'anomalie de rendement en France. Les impacts du changement climatique sur la production de café au Brésil et au Vietnam sont également étudiés à l'aide de simulations climatiques et de modèles d'impact ou “suitability models”. Les données climatiques sont cependant biaisées par rapport au climat réel. De nombreuses méthodes de “correction de biais” (appelées ici “calibration”) ont été introduites pour corriger ces biais. Une présentation critique et détaillée de ces calibrations dans la littérature est fournie pour mieux comprendre les hypothèses, les propriétés et les objectifs d'application de chaque méthode. Les simulations climatiques sont ensuite calibrées par une méthode basée sur les quantiles avant d'être utilisées sur nos modèles d'impact. Ces modèles sont développés sur la base des données de recensement des zones caféières, et les variables climatiques potentielles sont basées sur un examen des études précédentes utilisant des modèles d'impact pour le café et des recommandations d'experts. Les résultats montrent que les zones propices à l'arabica au Brésil pourraient diminuer d'environ 26 % d'ici le milieu du siècle dans le scénario à fortes émissions, les régions compatibles avec la culture du robusta vietnamien pourraient quant à elle diminué d'environ 60 %. Les impacts sont significatifs à basse altitude pour les deux types de café, suggérant des déplacements potentiels de la production vers des endroits plus élevés