2025-11-18T22:16:13.731313

Hierarchical Federated Learning for Crop Yield Prediction in Smart Agricultural Production Systems

Abouaomar, hanjri, Kobbane et al.

In this paper, we presents a novel hierarchical federated learning architecture specifically designed for smart agricultural production systems and crop yield prediction. Our approach introduces a seasonal subscription mechanism where farms join crop-specific clusters at the beginning of each agricultural season. The proposed three-layer architecture consists of individual smart farms at the client level, crop-specific aggregators at the middle layer, and a global model aggregator at the top level. Within each crop cluster, clients collaboratively train specialized models tailored to specific crop types, which are then aggregated to produce a higher-level global model that integrates knowledge across multiple crops. This hierarchical design enables both local specialization for individual crop types and global generalization across diverse agricultural contexts while preserving data privacy and reducing communication overhead. Experiments demonstrate the effectiveness of the proposed system, showing that local and crop-layer models closely follow actual yield patterns with consistent alignment, significantly outperforming standard machine learning models. The results validate the advantages of hierarchical federated learning in the agricultural context, particularly for scenarios involving heterogeneous farming environments and privacy-sensitive agricultural data.

academic

Apprentissage Fédéré Hiérarchique pour la Prédiction du Rendement des Cultures dans les Systèmes de Production Agricole Intelligente

Informations de Base

ID de l'article: 2510.12727
Titre: Hierarchical Federated Learning for Crop Yield Prediction in Smart Agricultural Production Systems
Auteurs: Anas Abouaomar, Mohammed El hanjri, Abdellatif Kobbane, Anis Laouiti, Khalid Nafil
Classification: cs.LG (Apprentissage Automatique), cs.AI (Intelligence Artificielle), cs.DC (Informatique Distribuée)
Date de Publication: 14 octobre 2025 (Prépublication ArXiv)
Lien de l'article: https://arxiv.org/abs/2510.12727

Résumé

Cet article propose une nouvelle architecture d'apprentissage fédéré hiérarchique spécialement conçue pour les systèmes de production agricole intelligente et la prédiction du rendement des cultures. La méthode introduit un mécanisme d'abonnement saisonnier, où les exploitations agricoles rejoignent des grappes spécifiques à certaines cultures au début de chaque saison agricole. L'architecture proposée à trois niveaux comprend une couche client constituée d'exploitations agricoles intelligentes individuelles, une couche intermédiaire d'agrégateurs spécifiques aux cultures et une couche supérieure d'agrégateur de modèle global. Au sein de chaque grappe de cultures, les clients collaborent pour entraîner des modèles spécialisés adaptés à des types de cultures spécifiques, puis ces modèles sont agrégés pour produire un modèle global de niveau supérieur qui intègre les connaissances de multiples cultures. Cette conception hiérarchique permet à la fois la spécialisation locale pour les types de cultures individuels et la généralisation globale dans des environnements agricoles diversifiés, tout en protégeant la confidentialité des données et en réduisant les frais généraux de communication.

Contexte de Recherche et Motivation

Définition du Problème

Cette recherche aborde les problèmes clés de la prédiction du rendement des cultures en agriculture intelligente. Les approches traditionnelles d'apprentissage automatique centralisé font face aux défis suivants dans les environnements agricoles réels:

Hétérogénéité des données et distribution géographique: Les exploitations agricoles présentent des variations considérables en termes de qualité des sols, conditions climatiques, types de cultures, techniques de plantation et utilisation des ressources
Problèmes de confidentialité et de propriété des données: Les propriétaires d'exploitations sont généralement réticents à partager des données opérationnelles sensibles avec des tiers pour des raisons de concurrence, d'éthique ou de légalité
Frais généraux de communication et fiabilité de la connectivité: La connectivité fiable n'est pas toujours possible dans les zones rurales ou les régions aux infrastructures faibles

Importance

La prédiction précise du rendement des cultures est cruciale pour:

La prise de décision basée sur les données par les agriculteurs, les agronomes et les décideurs politiques
L'allocation des ressources, la planification de la chaîne d'approvisionnement, la tarification du marché et la distribution alimentaire
Répondre aux pressions liées à la croissance démographique mondiale, aux changements climatiques et à l'augmentation des besoins en sécurité alimentaire

Limitations des Approches Existantes

Les méthodes agricoles existantes basées sur l'apprentissage fédéré présentent les limitations suivantes:

Mécanismes de participation des clients statiques
Stratégies d'agrégation de modèles uniformes
Manque d'adaptabilité à la saisonnalité et aux variations spécifiques aux cultures
Un modèle global unique ne peut pas capturer la variabilité introduite par les types de cultures, les régions climatiques ou les pratiques agricoles locales

Contributions Principales

Conception d'un paradigme d'apprentissage fédéré avec clustering saisonnier et par type de culture: Développement d'un mécanisme de participation dynamique des clients aligné avec les cycles de production agricole
Développement d'un processus d'agrégation de modèles hiérarchique: Équilibre entre la spécialisation locale (par culture) et la généralisation globale entre les types de cultures
Validation de l'efficacité du système par des expériences complètes: Démonstration de la performance supérieure du système proposé dans les tâches de prédiction du rendement des cultures

Détails de la Méthode

Définition de la Tâche

Conception d'un système d'apprentissage fédéré hiérarchique comprenant un ensemble d'exploitations agricoles (clients), des grappes spécifiques aux cultures et un serveur central. Le processus d'entraînement se déroule de manière saisonnière: au début de chaque saison, chaque exploitation s'abonne à une grappe de type de culture et contribue à l'entraînement du modèle spécifique à la culture, puis le serveur agrège les modèles pour former un modèle global inter-cultures.

Architecture du Modèle

Conception de l'Architecture à Trois Niveaux

Niveau inférieur (couche client): Exploitations agricoles intelligentes individuelles
- Entraînement de modèles ML locaux sur des données de cultures propriétaires
- Pas de partage de données brutes, transmission uniquement des mises à jour de modèles
Niveau intermédiaire (couche d'agrégation des cultures): Agrégateurs spécifiques aux cultures
- Exécution de l'agrégation spécifique aux cultures
- Maintien de modèles spécialisés pour chaque type de culture
Niveau supérieur (couche d'agrégation globale): Agrégateur de modèle global
- Réception des modèles partiellement agrégés
- Calcul du modèle global final w_global

Modélisation Mathématique

Entraînement local des clients:

D_i = {(x_j, y_j)}^{n_i}_{j=1}, x_j ∈ R^d, y_j ∈ R
w_i^{(t+1)} ← LocalUpdate(θ_k^{(t)}, D_i) = θ_k^{(t)} - η∇L_i(θ_k^{(t)})

Agrégation de modèles spécifiques aux cultures:

θ_k^{(t+1)} = Σ_{i∈G_k} (n_i/N_k) * w_i^{(t+1)}
où N_k = Σ_{i∈G_k} n_i

Agrégation inter-cultures (modèle global):

w_global = Σ^K_{k=1} α_k * θ_k
où α_k = N_k / Σ^K_{j=1} N_j

Fonction objective:

min_w Σ^K_{k=1} Σ_{i∈G_k} (n_i/N) * L_i(w)
où N = Σ^K_{k=1} N_k

Points d'Innovation Technique

Mécanisme d'abonnement saisonnier: Les exploitations rejoignent dynamiquement des grappes spécifiques aux cultures en fonction de leurs intentions de plantation actuelles
Stratégie d'agrégation hiérarchique: Équilibre entre la spécialisation locale et le partage des connaissances globales
Apprentissage fédéré conscient des cultures: Entraînement spécialisé pour les modèles de motifs spécifiques à différents types de cultures

Configuration Expérimentale

Ensemble de Données

Source de données: Données synthétiques étendues basées sur des ensembles de données agricoles publics
Types de cultures: Maïs, blé, coton, riz, soja et orge (K=6 cultures)
Caractéristiques des données: Incluent les données de capteurs, satellites et rendements historiques

Métriques d'Évaluation

Évaluation de la performance du modèle par comparaison de la cohérence entre les rendements prédits et réels, en mettant l'accent sur l'alignement des courbes de prédiction avec les modèles de rendement réels.

Méthodes de Comparaison

Modèle Local (Local Model)
Modèle Spécifique à la Culture (Crop-Specific Model)
Modèle Global (Global Model)
Modèle d'Apprentissage Automatique Standard (Standard ML Model)

Détails d'Implémentation

Environnement matériel: ASUS TUF A15, processeur AMD Ryzen 7 6800H (4,7 GHz), 16 Go de RAM, NVIDIA RTX 3070 Ti
Framework logiciel: PyTorch et TensorFlow
Modèles ML: Random Forest, XGBoost, LSTM-CNN
Paramètres de configuration:
- Nombre total de clients: N = 10
- Nombre d'epochs d'entraînement local: E = 10 epochs
- Nombre de rounds de modèles spécifiques aux cultures: T_k = 15 rounds
- Au minimum 1 exploitation agricole par type de culture

Résultats Expérimentaux

Résultats Principaux

L'expérience a sélectionné 3 exploitations agricoles intelligentes aléatoires, s'abonnant respectivement à différents types de cultures (maïs, blé, coton) pour l'analyse comparative:

Résultats de prédiction du maïs: Les modèles locaux et spécifiques aux cultures peuvent faire des prédictions précises du rendement des exploitations, tandis que le modèle global fait des prédictions inexactes dans certains cas, similaires aux modèles ML standard appliqués à grande échelle
Résultats de prédiction du blé et du coton: Montrent des tendances similaires dans les 3 exploitations agricoles intelligentes, avec des variations de précision à différents degrés, mais les modèles locaux et spécifiques aux cultures peuvent toujours prédire avec précision le rendement
Comparaison de performance: Le modèle global est similaire aux modèles ML standard qui ne tiennent pas compte des détails dynamiques spécifiques aux cultures, faisant souvent des prédictions très inexactes

Résultats Expérimentaux

Avantages de la spécialisation locale: Les modèles locaux et spécifiques aux cultures surpassent significativement le modèle global en termes de précision de prédiction
Importance de la spécificité aux cultures: L'entraînement spécialisé pour des types de cultures spécifiques peut mieux capturer les modèles de croissance et les caractéristiques de rendement spécifiques aux cultures
Efficacité de l'architecture hiérarchique: L'architecture à trois niveaux équilibre avec succès les besoins de personnalisation et de généralisation

Travaux Connexes

Principales Directions de Recherche

Applications de l'apprentissage fédéré en agriculture: Classification des cultures, analyse des sols, détection des ravageurs et maladies, prédiction du rendement
Architectures d'apprentissage profond: Frameworks CNN-RNN, architectures de fusion multimodale, réseaux de neurones graphiques
Stratégies d'apprentissage d'ensemble: Imputation multiple, optimisation par colonie de fourmis, classificateurs Extra Trees
Optimisation de l'efficacité de communication: Élagage de modèles, intégration du calcul en brouillard

Avantages de cet Article

Par rapport aux travaux existants, les principaux avantages de cet article sont:

Introduction d'un mécanisme d'abonnement dynamique adapté aux caractéristiques saisonnières de la production agricole
Conception d'une stratégie d'agrégation hiérarchique réalisant simultanément la spécialisation et la généralisation
Fourniture de solutions pour l'hétérogénéité des données agricoles et la sensibilité à la confidentialité

Conclusion et Discussion

Conclusions Principales

L'architecture d'apprentissage fédéré hiérarchique résout avec succès les défis clés de l'agriculture intelligente
Le mécanisme d'abonnement saisonnier et la stratégie d'agrégation hiérarchique équilibrent efficacement la spécialisation locale et le partage des connaissances globales
Les résultats expérimentaux valident la performance supérieure des modèles locaux et spécifiques aux cultures

Limitations

Limitations de l'échelle expérimentale: Vérification avec seulement 10 exploitations agricoles intelligentes et 6 types de cultures
Limitations du type de données: Basées principalement sur des données synthétiques, manque de validation sur des données réelles d'exploitations agricoles à grande échelle
Considération insuffisante des facteurs environnementaux: Prise en compte insuffisante des conditions météorologiques extrêmes, des changements de sols et autres facteurs environnementaux dynamiques

Directions Futures

Extension de l'architecture du système: Inclusion de plus de types de cultures
Exploration d'autres critères de clustering: Clustering basé sur les régions, la disponibilité des ressources ou la taille des exploitations
Intégration de plus de facteurs environnementaux: Changements climatiques, changements dynamiques de la qualité des sols, etc.

Évaluation Approfondie

Points Forts

Innovation forte: Introduction pour la première fois d'un mécanisme d'abonnement saisonnier dans l'apprentissage fédéré agricole
Conception d'architecture rationnelle: L'architecture hiérarchique à trois niveaux équilibre bien les besoins de spécialisation et de généralisation
Valeur pratique élevée: Résout les problèmes pratiques de protection de la confidentialité des données agricoles et d'efficacité de la communication
Modélisation mathématique claire: Fournit des formules mathématiques complètes et des descriptions d'algorithmes

Insuffisances

Validation expérimentale insuffisante:
- Échelle expérimentale relativement petite (seulement 10 exploitations)
- Manque de comparaisons détaillées avec d'autres méthodes d'apprentissage fédéré avancées
- Absence de métriques d'évaluation numériques spécifiques (telles que RMSE, MAE, etc.)
Limitations de la méthode:
- Stratégie de clustering relativement simple, basée uniquement sur le type de culture
- Non-prise en compte de la localisation géographique des exploitations et de la similarité environnementale
- Analyse insuffisante de la distribution non uniforme des données
Détails techniques insuffisants:
- Analyse des coûts de communication insuffisamment détaillée
- Description insuffisante des mécanismes de protection de la confidentialité
- Absence d'analyse de convergence du modèle

Impact

Contribution académique: Fournit de nouvelles perspectives et un cadre de recherche pour l'apprentissage fédéré agricole
Valeur pratique: Fournit une solution viable pour le déploiement réel des systèmes d'agriculture intelligente
Reproductibilité: Fournit des descriptions d'algorithmes et des détails d'implémentation, mais manque de code open-source

Scénarios d'Application

Coopératives agricoles multi-cultures: Applicable aux organisations agricoles cultivant plusieurs types de cultures
Gestion agricole régionale: Adapté aux besoins de prédiction de rendement des départements de gestion agricole régionale
Services d'agriculture de précision: Peut fournir des solutions différenciées aux entreprises de services technologiques agricoles

Références

L'article cite 22 références connexes, couvrant principalement:

Recherche sur les applications de l'apprentissage fédéré en agriculture
Applications de l'apprentissage profond dans la prédiction du rendement des cultures
Apprentissage automatique distribué et technologies de protection de la confidentialité
Technologies d'agriculture intelligente et d'Internet des objets

Évaluation Globale: L'architecture d'apprentissage fédéré hiérarchique proposée dans cet article présente une forte innovativité et une valeur pratique considérable, fournissant une solution efficace pour résoudre les problèmes de protection de la confidentialité des données agricoles et d'hétérogénéité. Bien qu'il y ait de la place pour l'amélioration dans la validation expérimentale et les détails techniques, la logique générale de la recherche est claire et présente de bonnes perspectives de développement.