Mémoire de la culture numérique (2)

Février 2022

Digital Preservation HandBook

Un défi majeur pour la culture du numérique: préserver tout ce qui, depuis 50 à 70 ans, n'est plus conservé que sous forme de séries d'impulsions électriques ou magnétiques représentants des zéros (“0”) et des uns (“1”) dont la combinaison sur 8, 16 ou 32 éléments contigus, correspond à une lettre de l'alphabet, un chiffre, un son, une nuance de couleur ou tout autre valeur “analogique” telle qu'on en a défini des standards dans différents domaines (comme l'UNICODE pour tout ce qui regarde les caractères utilisés dans tous les alphabets ou écritures utilisés sur la planète).
Le Manuel de Préservation numérique traduit et adapté à partir du Digital Preservation Handbook créé par la Digital Preservation Coalition (DPC) dans la mouvance de la British Library à partir de 2001, est disponible dans l'Internet depuis 2021. C'est cette version que je présente ici.
Ce Manuel témoigne du foisonnement de la recherche en ces domaines.

Manuel de préservation numérique

La traduction française a été réalisée par la Cellule Nationale de Veille sur les Formats (CNVF) entre juillet 2020 et janvier 2021. Elle est publiée par l'Association Aristote en 2021 et comporte 282 pages.
Ce manuel conçu et réalisé par la DPC en 2001 est tenu à jour par cet organisme (https://www.dpconline.org). Une révision de l'édition anglaise a été publiée en 2016. La version française est faite sur cette dernière version (et en tenant compte éventuellement d'éléments nouveaux).

Pour le lecteur non-averti, tout est à lire – mais cela se lit assez rapidement, car chaque chapitre est suivi d'une abondante citation de références, pratiquement toutes à des sites web spécifiques pour la question abordée.
L'intérêt de ce travail est non seulement d'offrir les pistes de recherche et de pratiques actuelles, mais également de conforter l'idée que dans les moyens mis en œuvre pour cette préservation dans la durée de la mémoire numérique, il y aurait trois moyens principaux: la migration, la simulation et la création de “musées d'informatique” (p. 179).

La mémoire numérique dans la culture numérique
Mais commençons par le commencement: les caractères spécifiques de la mémoire dans la culture du numérique:
“La caractéristique commune des objets numériques est leur dépendance à la machine. Les informations ne sont accessibles et les fonctions ne peuvent être exécutées que par un ordinateur. À mesure que la technologie devient plus sophistiquée, cette dépendance devient une chaîne d'interdépendances de plus en plus élaborée, difficile à suivre et délicate à maintenir.
[...]
Pour garantir la valeur des objets numériques à long terme, nous devons en assurer l'accès, ce qui signifie que nous devons comprendre et atténuer les changements rapides dans les technologies et les organisations.
La plupart du temps, un objet numérique ne peut être bien archivé que sous forme numérique: il n'existe pas d'équivalent non numérique comme le papier qui conserverait à la fois toutes les informations essentielles et fournirait les fonctionnalités.
[...]
Aujourd'hui nous disposons d'un ensemble croissant et efficace d'approches, d'expériences et de collaborations pour relever ces défis. La préservation numérique est une entreprise importante, nécessaire et réalisable, dont les premières étapes sont simples et que tout le monde peut entreprendre. (p. 21)
Le recours à des tiers pour une sauvegarde sur le long terme

On entre alors dans la série des chapitres depuis le “Pour commencer” (pp. 36-43) jusqu'à la “Préservation de contenus spécifiques” (comme les périodiques en ligne, les images animées et le son, les pages web) aux pp. 240-268.

Régulièrement, le Manuel donne des clefs pour réfléchir à une préservation intelligente et ne pas oublier certains aspects. Ainsi, dans le chapitre sur le “Recours à des tiers” pour assurer une préservation de données numériques, le Manuel donne, sous forme d'un tableau, les principales “questions à poser à votre prestataire de services de préservation” (pp. 68-69). En voici quelques-unes :

• Quel est le niveau de redondance du système de stockage? À combien d'emplacements physiques distincts l'objet numérique est-il conservé? Quel est la distance géographique qui les sépare?
• Différents types de technologies de stockage sont-ils utilisés pour atténuer ou répartir les risques ? (par exemple, le stockage en ligne et hors ligne)
• Quelle est la stratégie de migration du stockage pour faire face à l'obsolescence technique? Que se passe-t-il lorsque le système est en fin de vie et que le contenu doit être migré vers un nouveau système? Le contenu est-il encore accessible pendant ce processus?
• Que se passe-t-il si le vendeur du système de stockage fait faillite?
• Quelles sont les mesures de sécurité et d'audit mises en place pour empêcher l'accès et/ou la modification non désirés des objets numériques?
• Qui est responsable du contrôle et de la gestion du système de stockage afin de garantir son bon fonctionnement? Y a-t-il une continuité du personnel en cas de vacances, de maladie ou de départs?
• Quelle est l'approche ou la veille mise en place pour la surveillance des technologies de stockage et l'évaluation des risques afin que les migrations, les mises à jour, les mises à niveau ou la maintenance puissent être planifiées et exécutées en temps utiles?
• Quelles sont les normes que le prestataire s'efforce de respecter? …Vise-t-il à être reconnu comme un entrepôt numérique fiable?
Y a-t-il des normes pour une préservation numérique à long terme?

Et, dans ce domaine, il commence à exister des normes comme OAIS (Open Archival Information Systems) qui devient la norme ISO 14721:2012; ou la norme ISO 16363: 2012 pour l'Audit et la certification des référentiels numériques de confiance; ou encore un Guide des Archives Nationales du Royaume-Uni sur le stockage dans le Cloud (p. 69-70).

La norme OAIS est d'ailleurs décrite sous différents aspects en pp. 73-74; 105-106 et 277. Conçue d'abord pour la préservation de données “spatiales”, cette norme a bénéficié de l'apport des bibliothèques et des archives du monde anglo-saxon.
Mais il existe également un jeu de critères pour les Archives numériques en Allemagne qui sont repris dans la norme DIN 31.644 qui prend notamment en compte les points suivants:

La gestion des objets numériques exige que:
• L'intégrité et l'authenticité de l'objet numérique soient assurés;
• Un plan stratégique pour les activités de préservation numérique soit mis en place;
• Des paquets d'informations pour l'entrée, le stockage et la diffusion soient définis;
• Une documentation adéquate soit fournie, y compris des identifiants pérennes et des métadonnées structurelles, techniques, de gestion et d'histoire suffisantes;
• L'objet numérique et les métadonnées soient conservés ensemble en vue d'une préservation à long terme” (p. 75).

Dans le même ordre d'idées, il peut y avoir avantage, suivant le contexte de stockage choisi ou imposé localement, de suivre ou de s'inspirer de normes comme PREMIS ou METS, deux normes mises au point et utilisées à la Library of Congress (USA).
METS (Metadata Encoding and Transmission Standard), par exemple, est “un standard d'encodage XML qui permet d'empaqueter des objets numériques avec des informations archivistiques” p.108.

Mais vu la mobilité de l'évolution technologique et sa rapidité toujours en cours dans un contexte commercial concurrentiel notamment

ces facteurs signifient que les normes devront être considérées comme faisant partie d'un ensemble de stratégies de préservation plutôt que comme la stratégie clé elle-même. L'environnement numérique n'est pas enclin à être contraint par des règles rigides et un programme de préservation numérique peut souvent être un mélange de normes et de meilleures pratiques, suffisamment souple et adapté pour répondre aux besoins de l'organisation, à sa situation et aux objets numériques qu'elle gère (p. 108)
Quelques pièges du stockage sur le long terme… et comment les éviter

Et, dans l'Introduction au chapitre spécifiquement consacré à l'aspect “stockage”, le Manuel précise et avertit:

Il est essentiel de comprendre la différence entre les solutions de stockage informatique standard et les besoins spécifiques induits par la préservation à long terme. Il est essentiel de pouvoir expliquer ces différences à votre service informatique ou à votre fournisseur de services de stockage et de pouvoir spécifier ces exigences lors de l'acquisition d'un système ou d'un service. Les systèmes de stockage standard sont conçus pour des objets numériques en cours d'utilisation. Bien que des procédures de sauvegarde soient généralement prévues, elles ne répondent pas aux exigences plus strictes visant à garantir la préservation à long terme des objets numériques. Sauvegarde et préservation numérique ne sont pas la même chose et de nombreux services ou experts informatiques peuvent ne pas comprendre ce point. Les systèmes de stockage pour la préservation numérique exigent un niveau plus élevé de redondance géographique, des procédures de reprises après sinistre renforcées, une planification à plus long terme et, surtout, une surveillance active de l'intégrité des données afin de détecter les modifications indésirables telle la corruption ou la perte de fichiers.” (p.160).

En complément de ce chapitre sur le Stockage, le Manuel donne une liste “des plus notables fournisseurs de stockage informatique basiques… ou spécialisés… qui peuvent fournir un stockage sur site ou dans le cloud, et notamment (avec l'adresse de leur site web) ARKIVUM, Digital Preservation Network, Dspace, ePrints, Fedora, iRods, LOCKSS, OCLC Digital Archive CONTENTdem, Portico, Preservica, Rosetta, COPTR (p. 166).

Peut-on se fier aux anciens supports?

Dans les chapitre sur les “Anciens supports” on peut retenir ceci:

Nous savons par expérience que les types de supports de stockage numérique changent fréquemment au fil du temps. [...] Compte tenu des tendances actuelles en matière de technologies de stockage, il est peut-être préférable de fournir maintenant un cadre qui permette l'évaluation continue des supports de stockage, qui pourraient désormais inclure les clés USB ou les disques durs externes. Un tel cadre a été fourni par les Archives nationales du Royaume-Uni (Brown, 2008). Il utilise un approche par tableaux de bord et indicateurs évaluant les supports de stockage sélectionnés en fonction de six critères: longévité (par exemple, durée de vie opérationnelle prouvée); Capacité; Viabilité (par exemple, en termes de préservation de l'intégrité des preuves); Obsolescence; Coût; Sensibilité (par exemple, aux dommages physiques et aux différentes conditions environnementales). […] mais ce type d'évaluation n'est pas une panacée. […] c'est pourquoi, en fin de compte, la préservation numérique dépend normalement du transfert du contenu vers un système de stockage administré (p. 170).
Peut-on définir des “mesures de préservation?

Et dans la section sur les “Mesures de préservation” (pp. 178-183):
“ L'obsolescence est un problème car tous les fichiers ont leurs propres dépendances matérielles et logicielles. C'était particulièrement le cas dans les premiers temps de l'informatique. Le changement devient un problème lorsqu'il compromet la signification du contenu ou son interprétation par un utilisateur. Un objectif essentiel des mesures de préservation numérique est de préserver l'intégrité et l'authenticité de l'objet conservé, malgré ces changements générationnels dans la technologie informatique. [...] Les techniques que nous allons aborder ici sont les suivantes: Migration des formats; Émulation; Musées de l'informatique.”[C'est moi qui souligne]!

“La migration de format, comme toute intervention susceptible de modifier la structure et le contenu des données, peut introduire des erreurs et des pertes d'informations. Il est donc important de définir des indicateurs permettant de mesurer la perte éventuelle d'informations et de les utiliser pour évaluer au moyen de tests l'exactitude et la qualité de la migration de format.”

“ Un émulateur, comme son nom l'indique, est un programme qui fonctionne sur une architecture informatique courante mais qui offre les mêmes possibilités et le même comportement qu'une architecture ancienne. [...] un avantage particulier de l'émulation est qu'une seule solution peut être déployée pour donner accès à un grand nombre d'objets, à condition que tous ces objets soient livrés sur le même système d'exploitation ou le même empilement matériel.” (p. 179).

“Les musées de l'informatique – Cette méthodologie propose la préservation des ordinateurs et de leurs logiciels “système” (systèmes d'exploitation, pilotes, etc.) ainsi que des données et des programmes d'application. Des efforts doivent être déployés pour maintenir toutes les plateformes en bon état et pour conserver toutes les connaissances nécessaires à la maintenance et à l'utilisation des machines et de leurs programmes. L'idée repose également sur l'existence d'un stock de pièces de rechange, mais celles-ci vont se réduire, tout comme les groupes d'experts. C'est pourquoi cette stratégie tend à être une mesure provisoire plutôt qu'une solution à long terme. Il existe quelques musées officiels, comme le Computer History Museum en Californie et le Centre for Computing History à Cambridge. Ils maintiennent généralement les machines en état de marche, mais n'offrent pas de services de préservation.” (p. 180-181).

On s'étonnera de ne pas voir mentionner ici le Computer Museum & Labs de Seattle qui a été spécifiquement créé et construit sur ces principes!

Comment contrôler la pérennité?

Et à propos de l'accès pérenne aux données électroniques à conserver:

Il y a toujours eu un lien étroit entre la préservation et l'accès. L'objectif principal de la préservation du contenu informationnel des ressources traditionnelles est de faire en sorte qu'elles restent accessibles aux générations actuelles et futures. Préserver l'accès aux objets numériques est l'objectif principal des programmes de préservation numérique, mais cela nécessite une gestion active tout au long du cycle de vie de la ressource  (p. 184).

Pour encadrer ces préservations, il semble indispensable d'avoir recours également à des “métadonnées”:

Les métadonnées sont des données relatives aux ressources numériques, stockées sous une forme structurée adaptée au traitement automatisé. Elles servent à de nombreux usages dans la préservation à long terme, en fournissant un enregistrement des activités qui ont été réalisées sur les objets numériques et une base sur laquelle les décisions futures sur les activités de préservation peuvent être prises à l'avenir, ainsi qu'en facilitant la recherche et l'accès. Les informations contenues dans un enregistrement de métadonnées englobent souvent toute une série de sujets. Il n'y pas en ligne de démarcation entre ce qui constitue des métadonnées de préservation et ce qui n'en constitue pas, mais, en fin de compte, l'objectif des métadonnées de préservation est de rendre possibles les objectifs de la préservation numérique à long terme, qui sont de maintenir la disponibilité, l'identité, la persistance, la capacité de rendu, l'intelligibilité et l'authenticité des objets numériques sur de longues périodes.
La documentation est l'information (telle que les manuels de logiciels, la conception des enquêtes et les guides d'utilisation) fournie par un créateur et l'entrepôt numérique, qui complète les métadonnées et fournit suffisamment d'informations pour permettre l'utilisation de la ressource par d'autres. C'est souvent le seul objet qui donne un aperçu de la manière dont la ressource numérique a été créée, manipulée, gérée et utilisée par son créateur et c'est souvent la clé qui permet aux autres d'utiliser la ressource en connaissance de cause.” (p. 190).
Des standards, des outils, des formats normalisés?

Il semble qu'en ce domaine le standard PREMIS (PREservation Metadata: Implementation Strategies) datant de 2013 (mis à jour en 2015), est assez largement consulté avec ses 6 axes (Technologie, Changement, Authenticité, Gestion des droits, Réutilisation future, Coût) et son dictionnaire (pp. 191-192)

Et dans le domaine des outils disponibles pour agir dans ce domaine de la préservation numérique à long terme, il existe un Répertoire des actions réalisées dont la version originale en anglais se trouve sous le signe COPTR (Community Owned digital Preservation Tool Registry) qui est alimenté par différentes organisations qui travaillent sur ces préservations numériques pour le long terme (pp. 201-202).
La recherche d'intégrité des données numériques conservées dans le long terme peut être contrôlée par des systèmes d'empreintes numériques:

L'empreinte d'un fichier est une empreinte numérique, c'est-à-dire que même la plus petite modification apportée au fichier entraîne une modification complète de l'empreinte. Les empreintes sont généralement créées à l'aide de techniques cryptographiques et peuvent être générées à l'aide d'une série d'outils facilement accessibles et de logiciels libres. (p. 204).

Quant aux formats à donner aux fichiers que l'on veut conserver sur le long terme, il semble que la Base de données PRONOM (liée aux Archives nationales du Royaume-Uni) offre une série de formats de fichiers “pour soutenir l'accès à long terme aux documents électroniques et autres objets numériques ayant une valeur culturelle, historique ou commerciale.” (p. 216).

Conclure?

Un Glossaire, très utile pour se mettre d'accord sur des terminologies en évolution permanente, clôture le Manuel (pp. 269-282). On peut y trouver, par exemple des bonnes descriptions/définitions de “Archivage numérique”, “Nativement numérique”, “PDF”, “XML”, etc.

Ce remarquable tour d'horizon du domaine doit servir de guide à toute entreprise actuelle de conservation du numérique sur le long terme.

La mention des Musées d'informatique comme lieu et modalité de ces conservations à long terme de données numériques me semble significative. Ces Musées pourraient devenir des Centres industriels de maintenance d'artefacts numériques sur la longue durée et percevoir à travers un tel service offert à la collectivité, des ressources pour faire fonctionner les aspects culturels et muséaux ouverts au public!
Mais on perçoit que la problématique a déjà été prise en compte pour des domaines qui génèrent une grande quantité de données et programmes, nativement électroniques, comme l'avionique, la recherche spatiale ou médicale ou physique, les centres d'Archivage, les producteurs de données numérisées (son, image mobile, sites web, etc).
Désormais on peut plus “bricoler” dans ce domaine! Les enjeux sont trop importants pour l'avenir de la culture numérique!