Conférence
Notice
Lieu de réalisation
Campus Croix Rouge - Université de Reims Champagne-Ardenne
Langue :
Français
Crédits
Annaïg Pedrono (Intervention), Johan Aussenac (Intervention)
Conditions d'utilisation
Droit commun de la propriété intellectuelle
Citer cette ressource :
Annaïg Pedrono, Johan Aussenac. JCAD. (2023, 2 octobre). Deux nouvelles plateformes de stockage et de calcul au CNES pour rapprocher les traitements des données , in JCAD 2023. [Vidéo]. Canal-U. https://www.canal-u.tv/148064. (Consultée le 20 septembre 2024)

Deux nouvelles plateformes de stockage et de calcul au CNES pour rapprocher les traitements des données

Réalisation : 2 octobre 2023 - Mise en ligne : 20 novembre 2023
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
Descriptif

Deux nouvelles infrastructures de stockage et de traitement ont été mises en production entre fin 2022 et mi-2023 au sein du Centre de Calcul du CNES avec les objectifs suivants :

  • Améliorer le partage des données scientifiques et spatiales et répondre au besoin de passage à l'échelle avec les nouvelles missions spatiales (Volume à la mise en place = 75PO)
  • Mettre à disposition des utilisateur du "Système d'information Scientifique" du CNES une interface de stockage interopérable avec des partenaires externes (Centre de Calcul, Plateforme de Cloud)
  • Rapprocher les moyens de stockage et de traitement au sein d'un réseau unique et haute performance (100Gbs)

Les éléments mis en œuvre pour répondre à ces nouveaux besoins sont basés sur deux services (Datalake et HPC) travaillant de concert.

Le Datalake :

  • Mise en place d'une solution de stockage globale pour les données du CNES en mode Object Storage (Changement de paradigme par rapport à l'historique POSIX pour préparer l'interopérabilité avec les approches Cloud / ESA)
  • Volume de stockage important à travers deux classes de stockage Disque et Bandes via une API conforme au standard AWS S3 et Glacier (35PO Disque et 35PO Glacier)
  • Répondre aux besoins de performances des projets et des enjeux de maîtrise de l'impact environnemental (Stockage Froid à faible consommation électrique)
  • Intégration de la solution dans l'écosystème de traitement (Calcul) et diffusion

Le nouveau supercalculateur (Trex - HPC6G) :

  • Supercalculateur orienté HTC avec un volume de 10PO de stockage GPFS (ESS3500 pour les metadatas et le burst, NL-SAS pour le stockage des données projets)
  • Nouveaux services : Kubernetes et métrologie accessible aux utilisateurs (heures CPU, volumétrie des données et kW consommés)
  • Amélioration du service Datalabs existant (Jupyter + Virtual Research Environnement)
  • Une gamme d'installations mutualisées et adaptées à l'architecture du cluster et une automatisation de ces installations mise en place avec Spack
  • Une interface avec les outils de la forge logicielle : GitLab, jenkins, GitLab-CI, Artifactory et SonarQube
  • Une documentation détaillée de nombreux cas d'usage (calcul parallèle, IA, embarrassingly parallel) adaptée à des utilisateurs aux compétences "variées" (du débutant à l'expert)

L'originalité de la solution proposée est le choix d'un stockage Objet sur le Datalake versus POSIX sur la plateforme de calcul, une fonction Glacier (sur une installation "On Premise" du CNES) et un accompagnement fort des utilisateurs pour changer leur pratique.

Les premiers résultats positifs seront présentés :
- Maturité du composant de stockage sur disque (mode distribué)
- Bon respect du standard AWS S3 sur cette partie
- Intégration avec le référentiel d'identité existant (IPA/LDAP) malgré la logique différente en object storage

Nous aborderons également les écueils et les limites auxquels nous sommes confrontés :
- Faible maturité de l'intégration Bande et nombre d'acteurs limité (aujourd'hui mais en évolution)
- Difficulté d'appropriation du modèle par les utilisateurs
- Niveaux de compatibilité des frameworks (Mapserveur, Orchestrateur, ...) de traitements ou librairies de données (NetCDF, Format optimisé Cloud)

Intervention

Dans la même collection