Les données, une matière intangible aux impacts bien concrets !

Retranscription

Bonjour à toutes et à tous, on va regarder maintenant les impacts du numérique sous l'angle de la donnée. Alors qu'est-ce que c'est qu'une donnée ? Une donnée c'est simplement la représentation numérique d'une information issue du monde réel. Quand on parle de numérique ici, on parle de quelque chose qui est sous la forme de 1 et de 0, simplement quelque chose qu'un ordinateur est capable de traiter et de manipuler. Donc c'est à partir de cette donnée numérique qu'on va être capable de construire du savoir et de la connaissance. A l'origine de nos données, on a simplement une capture du monde réel. Cette capture peut être faite avec un microphone, une caméra, même un clavier simplement, qui va permettre de transcrire du texte par exemple, ou des capteurs de température, ou même un satellite qui va permettre de capturer des images de la planète. Donc ça, ça va nous donner un certain nombre de données brutes. Ces données brutes vont ensuite être organisées et associées à un certain nombre d'informations complémentaires qu'on appelle les métadonnées. Ces métadonnées sont elles-mêmes des données, mais c'est des données qui vont permettre de faire quelque chose de cette donnée. Donc ça va nous permettre de construire une information qui est structurée, qui est utilisable. Cette information va pouvoir être diffusée, mise à disposition, en appliquant par exemple des principes FAIR qui répondent aux critères de la science ouverte. A partir de ces informations, on va pouvoir interpréter, et là on va enfin pouvoir construire du savoir et des connaissances qui vont permettre d'améliorer notre connaissance du monde réel, en s'appuyant évidemment sur des méthodologies scientifiques. La donnée a aussi un cycle de vie. Ce cycle de vie va aller de la création de cette donnée jusqu'à sa fin de vie, et parcourir plusieurs étapes au cours desquelles on va potentiellement avoir un certain nombre d'impacts. Rien que lors de sa création, une donnée déjà va devoir nécessiter la construction de capteurs, par exemple un satellite qui est une forme de capteur qui va acquérir de la donnée. Le lancement, la fabrication et l'utilisation de ce satellite consomment beaucoup d'énergie, beaucoup de ressources, et donc crée un impact initial juste pour créer de la donnée qui est déjà extrêmement élevée. Lors des phases de traitement qui vont suivre cette acquisition, on va également devoir simplement transférer, manipuler ces données, les stocker, et là aussi on va consommer de l'énergie, des ressources, des ressources minières par exemple pour pouvoir construire des cartes graphiques qui vont permettre de faire des calculs sur ces données, ou de l'eau pour refroidir les data centers qui vont héberger ces cartes graphiques par exemple. Il existe des outils tels que l'analyse de cycle de vie attributionnelle qui permettent d'estimer le coût environnemental de stockage ou de transfert d'une donnée. On peut voir ici dans cette diapositive par exemple le coût du transport d'un gigaoctet entre Orsay et Montpellier, qui a été estimé à peu près à 1,5 g d'équivalent CO2. Ce coût de transport est quand même à moduler et à mettre en relief avec le fait que si le réseau ne transporte pas de données, ça n'empêchera pas son coût de consommation énergétique d'exister. Il n'y a quasiment aucune proportionnalité énergétique entre un réseau qui transporte de la donnée et un réseau qui est au repos en fait. On peut faire exactement la même chose avec le stockage de la donnée et estimer son coût environnemental en prenant en compte dans l'analyse de cycle de vie comme d'habitude l'ensemble des matériels qui sont impliqués dans ce stockage. Pour autant, à nouveau, on a un certain nombre de limites à ce genre d'indicateurs parce que comme c'est bien le matériel qui impacte, ce n'est pas la donnée en tant que telle. Si le stockage est fait sur une machine éteinte ou sur un disque dur éteint, notre coût d'usage sera quasiment nul et ne sera lié qu'à la phase de fabrication de notre disque dur. Par contre, si on a un serveur allumé avec des disques durs vides de données utiles, pour autant, la consommation en phase d'usage, elle, elle sera quand même élevée. Donc ces indicateurs ont un certain nombre de limites et on ne peut pas les prendre de manière brute, issue de l'étude sans rappeler toutes les limites de l'étude notamment. En termes de croissance, on estime aujourd'hui qu'on a un volume qui double à peu près tous les deux ans, sachant que finalement, cette augmentation de la quantité de données disponibles entretient une forme de cercle vicieux puisque plus on a de données disponibles, plus on va avoir besoin de vitesse de traitement, de capacité de stockage et même de puissance de traitement. En même temps, cette augmentation de la capacité de traitement, de stockage et de transfert nous permet évidemment de traiter plus de données. Et donc du coup, on entretient une forme de cercle vicieux en améliorant la qualité matérielle des objets permettant de traiter les données. En termes de tendance, cette croissance, en fait, elle est portée notamment par une croissance des usages spécifiques aux usages vidéo, à la quantité de personnes connectées ou encore à la quantité d'objets connectés disponibles aujourd'hui. Et donc la croissance de l'ensemble de ces indicateurs est en lien direct avec la croissance des volumes disponibles aujourd'hui. En termes d'usages, la vidéo représente 60 à 80% des usages du numérique aujourd'hui. Il ne faudrait pas penser cependant que cette quantité de données qui transite par les réseaux et qui est liée au trafic vidéo est directement responsable de 60 à 70 ou 80% des gaz à effet de serre. La dernière étude de l'ADEME montre qu'on est plutôt autour de 30% de ces impacts. Il y a d'autres usages, tels que le minage des crypto-monnaies par exemple, qui utilisent très peu de bandes passantes, mais consomment énormément de ressources, notamment en termes de consommation d'énergie, parce que le minage des crypto-monnaies est quelque chose qui consomme beaucoup de ressources énergétiques. Si on se focalise un petit peu sur les usages plutôt vertueux de l'utilisation des données, on a un certain nombre de choses qui sont considérées comme plutôt positives, tels que l'aide au handicap par exemple, le domaine de la santé, la recherche sur le cancer par exemple, ou encore la science ouverte et la diffusion de la connaissance. L'efficacité aussi souvent est citée comme un exemple positif des outils numériques et de l'utilisation des données, mais la plupart de ces domaines peuvent être contrebalancés, notamment dans le cadre d'efficacité par l'effet rebond, ou dans le cadre de la diffusion de la connaissance ou de la disponibilité des données liées à la connaissance, par l'explosion de l'usage de l'intelligence artificielle, qui se met à consommer beaucoup de ressources et qui a infléchi la courbe de croissance du numérique dans le mauvais sens par rapport aux objectifs climatiques qu'on est censé suivre. Qui plus est, ces données peuvent être utilisées pour surveiller les populations, pour les manipuler, politiquement ou que ce soit commercialement. A partir des données, on peut établir des profils des individus qui peuvent être pratiquement aussi précis que ce qu'un membre proche d'une personne serait capable de détecter. Et donc, à partir de ça, on va pouvoir inciter les personnes à consommer des nouveaux objets par exemple. On a également une forte concentration des pouvoirs dans les mains des multinationales, qui aujourd'hui maîtrisent la plupart des données mondiales d'une manière privative. On a également la possibilité de développer des armes autonomes par exemple. Et on a aussi plein de conséquences sur les enfants en termes de santé à cause de l'exposition aux écrans et du nombre d'heures passées devant les écrans, notamment sur les réseaux sociaux. Les enjeux auxquels on est confrontés sont effectivement à la hauteur de cette profusion de données disponibles et présentes sur nos réseaux numériques. Ces enjeux sont premièrement environnementaux, puisqu'on sait très bien que le numérique aujourd'hui est un des facteurs qui aggrave la crise environnementale. Mais aussi on a des enjeux politiques, géopolitiques, avec des questions de souveraineté ou même des enjeux autour de la démocratie et des manipulations de nos démocraties avec les réseaux numériques. On a un certain nombre d'enjeux qui tournent autour de la vie privée et des libertés des individus. Et une dernière série d'enjeux qui sont liés à la quantification de notre monde, qui est réduite à des indicateurs numériques mesurés et qui oublie tout un tas de choses. Toutes celles qui ne sont pas quantifiées sont laissées de côté, notamment en termes de décision publique. Pour conclure cette présentation, j'aimerais peut-être retenir trois messages importants. Le premier message sera qu'il y a des liens extrêmement forts entre la donnée, la quantité de données et les impacts matériels représentés par le numérique. La deuxième, c'est qu'il est peut-être important de ne pas se contenter de questionner comment on va acquérir de la donnée ou comment on va la traiter, mais aussi peut-être surtout pourquoi on acquiert cette donnée et pourquoi on l'utilise. Et enfin, on ne peut imaginer un numérique sobre que si l'on s'interroge également sur une forme de sobriété de la donnée.