Mémoire de la culture numérique (2)
Février 2022
Un défi majeur pour la culture du numérique: préserver tout ce qui, depuis 50 à 70 ans, n'est plus conservé que sous forme de séries d'impulsions électriques ou magnétiques représentants des zéros (“0”) et des uns (“1”) dont la combinaison sur 8, 16 ou 32 éléments contigus, correspond à une lettre de l'alphabet, un chiffre, un son, une nuance de couleur ou tout autre valeur “analogique” telle qu'on en a défini des standards dans différents domaines (comme l'UNICODE pour tout ce qui regarde les caractères utilisés dans tous les alphabets ou écritures utilisés sur la planète).
Le Manuel de Préservation numérique traduit et adapté à partir du
Digital Preservation Handbook créé par la Digital Preservation Coalition (DPC) dans la mouvance de la British Library à partir de 2001, est disponible dans l'Internet depuis 2021. C'est cette version que je présente ici.
Ce Manuel témoigne du foisonnement de la recherche en ces domaines.
Manuel de préservation numérique
La traduction française a été réalisée
par la Cellule Nationale de Veille sur les
Formats (CNVF) entre juillet 2020 et janvier
2021. Elle est publiée par l'Association
Aristote en 2021 et comporte 282 pages.
Ce manuel conçu et réalisé par la DPC en
2001 est tenu à jour par cet organisme
(https://www.dpconline.org). Une révision
de l'édition anglaise a été publiée en 2016.
La version française est faite sur cette
dernière version (et en tenant compte
éventuellement d'éléments nouveaux).
Pour
le lecteur non-averti, tout est à lire –
mais cela se lit assez rapidement, car
chaque chapitre est suivi d'une abondante
citation de références, pratiquement toutes
à des sites web spécifiques pour la question
abordée.
L'intérêt de ce travail est non
seulement d'offrir les pistes de recherche
et de pratiques actuelles, mais également de
conforter l'idée que dans les moyens mis en
œuvre pour cette préservation dans la durée
de la mémoire numérique, il y aurait trois
moyens principaux: la migration, la
simulation et la création de “musées
d'informatique” (p. 179).
La mémoire numérique dans la culture numérique
Mais commençons par le commencement: les caractères spécifiques de la mémoire dans la culture du numérique:
“La caractéristique commune des objets numériques est leur dépendance à la machine. Les informations ne sont accessibles et les fonctions ne peuvent être exécutées que par un ordinateur. À mesure que la technologie devient plus sophistiquée, cette dépendance devient une chaîne d'interdépendances de plus en plus élaborée, difficile à suivre et délicate à maintenir.
[...]
Pour garantir la valeur des objets numériques à long terme, nous devons en assurer l'accès, ce qui signifie que nous devons comprendre et atténuer les changements rapides dans les technologies et les organisations.
La plupart du temps, un objet numérique ne peut être bien archivé que sous forme numérique: il n'existe pas d'équivalent non numérique comme le papier qui conserverait à la fois toutes les informations essentielles et fournirait les fonctionnalités.
[...]
Aujourd'hui nous disposons d'un ensemble croissant et efficace d'approches, d'expériences et de collaborations pour relever ces défis. La préservation numérique est une entreprise importante, nécessaire et réalisable, dont les premières étapes sont simples et que tout le monde peut entreprendre. (p. 21)
Le recours à des tiers pour une sauvegarde sur le long terme
On entre alors dans la série des chapitres depuis le “Pour commencer” (pp. 36-43) jusqu'à la “Préservation de contenus spécifiques” (comme les périodiques en ligne, les images animées et le son, les pages web) aux pp. 240-268.
Régulièrement, le Manuel donne des clefs pour réfléchir à une préservation intelligente et ne pas oublier certains aspects. Ainsi, dans le chapitre sur le “Recours à des tiers” pour assurer une préservation de données numériques, le Manuel donne, sous forme d'un tableau, les principales “questions à poser à votre prestataire de services de préservation” (pp. 68-69). En voici quelques-unes :
• Quel est le niveau de redondance du système de stockage? À combien d'emplacements physiques distincts l'objet numérique est-il conservé? Quel est la distance géographique qui les sépare?
• Différents types de technologies de stockage sont-ils utilisés pour atténuer ou répartir les risques ? (par exemple, le stockage en ligne et hors ligne)
• Quelle est la stratégie de migration du stockage pour faire face à l'obsolescence technique? Que se passe-t-il lorsque le système est en fin de vie et que le contenu doit être migré vers un nouveau système? Le contenu est-il encore accessible pendant ce processus?
• Que se passe-t-il si le vendeur du système de stockage fait faillite?
• Quelles sont les mesures de sécurité et d'audit mises en place pour empêcher l'accès et/ou la modification non désirés des objets numériques?
• Qui est responsable du contrôle et de la gestion du système de stockage afin de garantir son bon fonctionnement? Y a-t-il une continuité du personnel en cas de vacances, de maladie ou de départs?
• Quelle est l'approche ou la veille mise en place pour la surveillance des technologies de stockage et l'évaluation des risques afin que les migrations, les mises à jour, les mises à niveau ou la maintenance puissent être planifiées et exécutées en temps utiles?
• Quelles sont les normes que le prestataire s'efforce de respecter? …Vise-t-il à être reconnu comme un entrepôt numérique fiable?
Y a-t-il des normes pour une préservation numérique à long terme?
Et, dans ce domaine, il commence à exister des normes comme OAIS (Open Archival Information Systems) qui devient la norme ISO 14721:2012; ou la norme ISO 16363: 2012 pour l'Audit et la certification des référentiels numériques de confiance; ou encore un Guide des Archives Nationales du Royaume-Uni sur le stockage dans le Cloud (p. 69-70).
La
norme OAIS est d'ailleurs décrite sous
différents aspects en pp. 73-74; 105-106 et
277. Conçue d'abord pour la préservation de
données “spatiales”, cette norme a
bénéficié de l'apport des bibliothèques et
des archives du monde anglo-saxon.
Mais
il existe également un jeu de critères pour
les Archives numériques en Allemagne qui
sont repris dans la norme DIN 31.644 qui
prend notamment en compte les points
suivants:
La gestion des objets numériques exige que:
• L'intégrité et l'authenticité de l'objet numérique soient assurés;
• Un plan stratégique pour les activités de préservation numérique soit mis en place;
• Des paquets d'informations pour l'entrée, le stockage et la diffusion soient définis;
• Une documentation adéquate soit fournie, y compris des identifiants pérennes et des métadonnées structurelles, techniques, de gestion et d'histoire suffisantes;
• L'objet numérique et les métadonnées soient conservés ensemble en vue d'une préservation à long terme” (p. 75).
Dans le même
ordre d'idées, il peut y avoir avantage,
suivant le contexte de stockage choisi ou
imposé localement, de suivre ou de
s'inspirer de normes comme PREMIS ou METS,
deux normes mises au point et utilisées à la
Library of Congress (USA).
METS (Metadata
Encoding and Transmission Standard), par
exemple, est “un standard d'encodage XML
qui permet d'empaqueter des objets
numériques avec des informations
archivistiques” p.108.
Mais vu la mobilité de l'évolution technologique et sa rapidité toujours en cours dans un contexte commercial concurrentiel notamment
ces facteurs signifient que les normes devront être considérées comme faisant partie d'un ensemble de stratégies de préservation plutôt que comme la stratégie clé elle-même. L'environnement numérique n'est pas enclin à être contraint par des règles rigides et un programme de préservation numérique peut souvent être un mélange de normes et de meilleures pratiques, suffisamment souple et adapté pour répondre aux besoins de l'organisation, à sa situation et aux objets numériques qu'elle gère (p. 108)
Quelques pièges du stockage sur le long terme… et comment les éviter
Et, dans l'Introduction au chapitre spécifiquement consacré à l'aspect “stockage”, le Manuel précise et avertit:
Il est essentiel de comprendre la différence entre les solutions de stockage informatique standard et les besoins spécifiques induits par la préservation à long terme. Il est essentiel de pouvoir expliquer ces différences à votre service informatique ou à votre fournisseur de services de stockage et de pouvoir spécifier ces exigences lors de l'acquisition d'un système ou d'un service. Les systèmes de stockage standard sont conçus pour des objets numériques en cours d'utilisation. Bien que des procédures de sauvegarde soient généralement prévues, elles ne répondent pas aux exigences plus strictes visant à garantir la préservation à long terme des objets numériques. Sauvegarde et préservation numérique ne sont pas la même chose et de nombreux services ou experts informatiques peuvent ne pas comprendre ce point. Les systèmes de stockage pour la préservation numérique exigent un niveau plus élevé de redondance géographique, des procédures de reprises après sinistre renforcées, une planification à plus long terme et, surtout, une surveillance active de l'intégrité des données afin de détecter les modifications indésirables telle la corruption ou la perte de fichiers.” (p.160).
En complément de ce chapitre sur le Stockage, le Manuel donne une liste “des plus notables fournisseurs de stockage informatique basiques… ou spécialisés… qui peuvent fournir un stockage sur site ou dans le cloud, et notamment (avec l'adresse de leur site web) ARKIVUM, Digital Preservation Network, Dspace, ePrints, Fedora, iRods, LOCKSS, OCLC Digital Archive CONTENTdem, Portico, Preservica, Rosetta, COPTR (p. 166).
Peut-on se fier aux anciens supports?
Dans les chapitre sur les “Anciens supports” on peut retenir ceci:
Nous savons par expérience que les types de supports de stockage numérique changent fréquemment au fil du temps. [...] Compte tenu des tendances actuelles en matière de technologies de stockage, il est peut-être préférable de fournir maintenant un cadre qui permette l'évaluation continue des supports de stockage, qui pourraient désormais inclure les clés USB ou les disques durs externes. Un tel cadre a été fourni par les Archives nationales du Royaume-Uni (Brown, 2008). Il utilise un approche par tableaux de bord et indicateurs évaluant les supports de stockage sélectionnés en fonction de six critères: longévité (par exemple, durée de vie opérationnelle prouvée); Capacité; Viabilité (par exemple, en termes de préservation de l'intégrité des preuves); Obsolescence; Coût; Sensibilité (par exemple, aux dommages physiques et aux différentes conditions environnementales). […] mais ce type d'évaluation n'est pas une panacée. […] c'est pourquoi, en fin de compte, la préservation numérique dépend normalement du transfert du contenu vers un système de stockage administré (p. 170).
Peut-on définir des “mesures de préservation?
Et dans la section sur
les “Mesures de préservation” (pp.
178-183):
“ L'obsolescence est un
problème car tous les fichiers ont leurs
propres dépendances matérielles et
logicielles. C'était particulièrement le cas
dans les premiers temps de l'informatique.
Le changement devient un problème lorsqu'il
compromet la signification du contenu ou son
interprétation par un utilisateur. Un
objectif essentiel des mesures de
préservation numérique est de préserver
l'intégrité et l'authenticité de l'objet
conservé, malgré ces changements
générationnels dans la technologie
informatique. [...] Les techniques que nous
allons aborder ici sont les suivantes:
Migration des formats; Émulation; Musées de
l'informatique.”[C'est moi qui souligne]!
“La migration de format, comme toute intervention susceptible de modifier la structure et le contenu des données, peut introduire des erreurs et des pertes d'informations. Il est donc important de définir des indicateurs permettant de mesurer la perte éventuelle d'informations et de les utiliser pour évaluer au moyen de tests l'exactitude et la qualité de la migration de format.”
“ Un émulateur, comme son nom l'indique, est un programme qui fonctionne sur une architecture informatique courante mais qui offre les mêmes possibilités et le même comportement qu'une architecture ancienne. [...] un avantage particulier de l'émulation est qu'une seule solution peut être déployée pour donner accès à un grand nombre d'objets, à condition que tous ces objets soient livrés sur le même système d'exploitation ou le même empilement matériel.” (p. 179).
“Les musées de l'informatique – Cette méthodologie propose la préservation des ordinateurs et de leurs logiciels “système” (systèmes d'exploitation, pilotes, etc.) ainsi que des données et des programmes d'application. Des efforts doivent être déployés pour maintenir toutes les plateformes en bon état et pour conserver toutes les connaissances nécessaires à la maintenance et à l'utilisation des machines et de leurs programmes. L'idée repose également sur l'existence d'un stock de pièces de rechange, mais celles-ci vont se réduire, tout comme les groupes d'experts. C'est pourquoi cette stratégie tend à être une mesure provisoire plutôt qu'une solution à long terme. Il existe quelques musées officiels, comme le Computer History Museum en Californie et le Centre for Computing History à Cambridge. Ils maintiennent généralement les machines en état de marche, mais n'offrent pas de services de préservation.” (p. 180-181).
On s'étonnera de ne pas voir mentionner ici le Computer Museum & Labs de Seattle qui a été spécifiquement créé et construit sur ces principes!
Comment contrôler la pérennité?
Et à propos de l'accès pérenne aux données électroniques à conserver:
Il y a toujours eu un lien étroit entre la préservation et l'accès. L'objectif principal de la préservation du contenu informationnel des ressources traditionnelles est de faire en sorte qu'elles restent accessibles aux générations actuelles et futures. Préserver l'accès aux objets numériques est l'objectif principal des programmes de préservation numérique, mais cela nécessite une gestion active tout au long du cycle de vie de la ressource (p. 184).
Pour encadrer ces préservations, il semble indispensable d'avoir recours également à des “métadonnées”:
Les métadonnées sont des données relatives aux ressources numériques, stockées sous une forme structurée adaptée au traitement automatisé. Elles servent à de nombreux usages dans la préservation à long terme, en fournissant un enregistrement des activités qui ont été réalisées sur les objets numériques et une base sur laquelle les décisions futures sur les activités de préservation peuvent être prises à l'avenir, ainsi qu'en facilitant la recherche et l'accès. Les informations contenues dans un enregistrement de métadonnées englobent souvent toute une série de sujets. Il n'y pas en ligne de démarcation entre ce qui constitue des métadonnées de préservation et ce qui n'en constitue pas, mais, en fin de compte, l'objectif des métadonnées de préservation est de rendre possibles les objectifs de la préservation numérique à long terme, qui sont de maintenir la disponibilité, l'identité, la persistance, la capacité de rendu, l'intelligibilité et l'authenticité des objets numériques sur de longues périodes.
La documentation est l'information (telle que les manuels de logiciels, la conception des enquêtes et les guides d'utilisation) fournie par un créateur et l'entrepôt numérique, qui complète les métadonnées et fournit suffisamment d'informations pour permettre l'utilisation de la ressource par d'autres. C'est souvent le seul objet qui donne un aperçu de la manière dont la ressource numérique a été créée, manipulée, gérée et utilisée par son créateur et c'est souvent la clé qui permet aux autres d'utiliser la ressource en connaissance de cause.” (p. 190).
Des standards, des outils, des formats normalisés?
Il semble qu'en ce domaine le standard PREMIS (PREservation Metadata: Implementation Strategies) datant de 2013 (mis à jour en 2015), est assez largement consulté avec ses 6 axes (Technologie, Changement, Authenticité, Gestion des droits, Réutilisation future, Coût) et son dictionnaire (pp. 191-192)
Et dans le domaine des outils disponibles
pour agir dans ce domaine de la préservation
numérique à long terme, il existe un
Répertoire des actions réalisées dont la
version originale en anglais se trouve sous
le signe COPTR (Community Owned digital
Preservation Tool Registry) qui est alimenté
par différentes organisations qui
travaillent sur ces préservations numériques
pour le long terme (pp. 201-202).
La
recherche d'intégrité des données numériques
conservées dans le long terme peut être
contrôlée par des systèmes d'empreintes
numériques:
L'empreinte d'un fichier est une empreinte numérique, c'est-à-dire que même la plus petite modification apportée au fichier entraîne une modification complète de l'empreinte. Les empreintes sont généralement créées à l'aide de techniques cryptographiques et peuvent être générées à l'aide d'une série d'outils facilement accessibles et de logiciels libres. (p. 204).
Quant aux formats à donner aux fichiers que l'on veut conserver sur le long terme, il semble que la Base de données PRONOM (liée aux Archives nationales du Royaume-Uni) offre une série de formats de fichiers “pour soutenir l'accès à long terme aux documents électroniques et autres objets numériques ayant une valeur culturelle, historique ou commerciale.” (p. 216).
Conclure?
Un Glossaire, très utile pour se mettre d'accord sur des terminologies en évolution permanente, clôture le Manuel (pp. 269-282). On peut y trouver, par exemple des bonnes descriptions/définitions de “Archivage numérique”, “Nativement numérique”, “PDF”, “XML”, etc.
Ce remarquable tour d'horizon du domaine doit servir de guide à toute entreprise actuelle de conservation du numérique sur le long terme.
La mention des Musées
d'informatique comme lieu et modalité de ces
conservations à long terme de données
numériques me semble significative. Ces
Musées pourraient devenir des Centres
industriels de maintenance d'artefacts
numériques sur la longue durée et percevoir
à travers un tel service offert à la
collectivité, des ressources pour faire
fonctionner les aspects culturels et muséaux
ouverts au public!
Mais on perçoit que
la problématique a déjà été prise en compte
pour des domaines qui génèrent une grande
quantité de données et programmes,
nativement électroniques, comme l'avionique,
la recherche spatiale ou médicale ou
physique, les centres d'Archivage, les
producteurs de données numérisées (son,
image mobile, sites web, etc).
Désormais
on peut plus “bricoler” dans ce domaine!
Les enjeux sont trop importants pour
l'avenir de la culture numérique!