Notice
Deux nouvelles plateformes de stockage et de calcul au CNES pour rapprocher les traitements des données
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
Descriptif
Deux nouvelles infrastructures de stockage et de traitement ont été mises en production entre fin 2022 et mi-2023 au sein du Centre de Calcul du CNES avec les objectifs suivants :
- Améliorer le partage des données scientifiques et spatiales et répondre au besoin de passage à l'échelle avec les nouvelles missions spatiales (Volume à la mise en place = 75PO)
- Mettre à disposition des utilisateur du "Système d'information Scientifique" du CNES une interface de stockage interopérable avec des partenaires externes (Centre de Calcul, Plateforme de Cloud)
- Rapprocher les moyens de stockage et de traitement au sein d'un réseau unique et haute performance (100Gbs)
Les éléments mis en œuvre pour répondre à ces nouveaux besoins sont basés sur deux services (Datalake et HPC) travaillant de concert.
Le Datalake :
- Mise en place d'une solution de stockage globale pour les données du CNES en mode Object Storage (Changement de paradigme par rapport à l'historique POSIX pour préparer l'interopérabilité avec les approches Cloud / ESA)
- Volume de stockage important à travers deux classes de stockage Disque et Bandes via une API conforme au standard AWS S3 et Glacier (35PO Disque et 35PO Glacier)
- Répondre aux besoins de performances des projets et des enjeux de maîtrise de l'impact environnemental (Stockage Froid à faible consommation électrique)
- Intégration de la solution dans l'écosystème de traitement (Calcul) et diffusion
Le nouveau supercalculateur (Trex - HPC6G) :
- Supercalculateur orienté HTC avec un volume de 10PO de stockage GPFS (ESS3500 pour les metadatas et le burst, NL-SAS pour le stockage des données projets)
- Nouveaux services : Kubernetes et métrologie accessible aux utilisateurs (heures CPU, volumétrie des données et kW consommés)
- Amélioration du service Datalabs existant (Jupyter + Virtual Research Environnement)
- Une gamme d'installations mutualisées et adaptées à l'architecture du cluster et une automatisation de ces installations mise en place avec Spack
- Une interface avec les outils de la forge logicielle : GitLab, jenkins, GitLab-CI, Artifactory et SonarQube
- Une documentation détaillée de nombreux cas d'usage (calcul parallèle, IA, embarrassingly parallel) adaptée à des utilisateurs aux compétences "variées" (du débutant à l'expert)
L'originalité de la solution proposée est le choix d'un stockage Objet sur le Datalake versus POSIX sur la plateforme de calcul, une fonction Glacier (sur une installation "On Premise" du CNES) et un accompagnement fort des utilisateurs pour changer leur pratique.
Les premiers résultats positifs seront présentés :
- Maturité du composant de stockage sur disque (mode distribué)
- Bon respect du standard AWS S3 sur cette partie
- Intégration avec le référentiel d'identité existant (IPA/LDAP) malgré la logique différente en object storage
Nous aborderons également les écueils et les limites auxquels nous sommes confrontés :
- Faible maturité de l'intégration Bande et nombre d'acteurs limité (aujourd'hui mais en évolution)
- Difficulté d'appropriation du modèle par les utilisateurs
- Niveaux de compatibilité des frameworks (Mapserveur, Orchestrateur, ...) de traitements ou librairies de données (NetCDF, Format optimisé Cloud)
Thème
Documentation
Dans la même collection
-
Table ronde et discussions : infrastructures de calcul et ateliers de la donnée de recherche Data G…
CastexStéphanieRenardArnaudAlbaretLucieRenonNicolasDufayardJean-FrançoisPARTIE 1 : Introduction et présentation des intervenants
-
Table ronde et discussions : infrastructures de calcul et ateliers de la donnée de recherche Data G…
CastexStéphanieRenardArnaudAlbaretLucieRenonNicolasDufayardJean-FrançoisPARTIE 6 : L'accompagnement autour de la gestion des données
-
Table ronde et discussions : infrastructures de calcul et ateliers de la donnée de recherche Data G…
CastexStéphanieRenardArnaudAlbaretLucieRenonNicolasDufayardJean-FrançoisPARTIE 3 : les liens entre les structures
-
Table ronde et discussions : infrastructures de calcul et ateliers de la donnée de recherche Data G…
CastexStéphanieRenardArnaudAlbaretLucieRenonNicolasDufayardJean-FrançoisPARTIE 5 : Des interactions croisées, à propos des compétences
-
Table ronde et discussions : infrastructures de calcul et ateliers de la donnée de recherche Data G…
CastexStéphanieRenardArnaudAlbaretLucieRenonNicolasDufayardJean-FrançoisPARTIE 2 : Les ateliers de la données
-
Table ronde et discussions : infrastructures de calcul et ateliers de la donnée de recherche Data G…
CastexStéphanieRenardArnaudAlbaretLucieRenonNicolasDufayardJean-FrançoisPARTIE 7 : Conclusion
-
Table ronde et discussions : infrastructures de calcul et ateliers de la donnée de recherche Data G…
CastexStéphanieRenardArnaudAlbaretLucieRenonNicolasDufayardJean-FrançoisPARTIE 4 : Des interactions croisées, liens entre le calcul et les données.
-
Présentation du dashboard ReproVIP pour visualiser la reproductibilité dans l'imagerie médicale
BonnetAxelLa plateforme d'imagerie virtuelle VIP [1] (https://vip.creatis.insa-lyon.fr) est un portail web de simulation et d'analyse d'images médicales. Elle existe depuis plus de 10 ans et a évolué pour
-
Parallélisation par l'intermédiaire d'une fenêtre à mémoire partagée (MPI 3.0) : application à un c…
ElyakimePierreJADIM est un code de calcul de mécanique des fluides développé en Fortran 90 à l'Institut de Mécanique des Fluides de Toulouse (IMFT).
-
Simulating the Extra Cellular Matrix - Calculations and data from atom to animal
BaudStéphanieThe extracellular matrix (ECM) is a three-dimensional network of macromolecules that is the architectural support for cells and allows tissue cohesion. This dynamic structure regulates many biological
-
Harnessing the power of Jupyter{Hub,Lab} to make Jean Zay HPC resources more accessible
PaipuriMahendraThis talk revolves around the deployment of JupyterHub on Jean Zay HPC platform and how it is done to meet the demands of RSSI (ZRR constraints) and also to provide a seamless experience to the end
-
Using High Performance Computing to decipher the impact of ageing process on collagens
DepenveillerCamillePlant cells have to face environmental stress, and in this context, being able to decipher the organization of the plant plasma membrane is a key point to better understand this adaptability of plasma