Présentation – Les archives du web : enjeux de collecte et de préservation des corpus Web en SHS

16 octobre 2024

Intervenants :

Jean-Christophe Peyssard (responsable de la Médiathèque de la MMSH)
Sophie Gebeil (maîtresse de conférence au sein de l’UMR TELEMMe)

Résumé

Que ce soit dans le cadre de nos études, de nos activités de recherche ou d’enseignement, nous mobilisons toutes et tous des documents ou des services accessibles via des sites web ou des réseaux sociaux. Le web se fait tantôt moyen de communication, encyclopédie, ressource pédagogique, outil de traduction automatisée, mais aussi corpus ou terrain d’enquête. Si ces pratiques ont désormais intégré nos routines professionnelles et personnelles, elles interrogent les modes de transmission et d’évaluation des savoirs. Cette intervention associe une historienne et un bibliothécaire engagé.es dans la construction d’un WebLab, espace de réflexion et de pratique pour l’étude et l’utilisation de l’archivage du web pour les SHS. Elle se propose d’envisager comment explorer, conserver et transmettre les données du Web dans le processus de recherche en sciences humaines et sociales.

Présentation complète

Plan

Archiver le Web : historique et fonctionnement
L’historien.ne et les archives du web : un nouveau rapport à l’archive
Un domaine de recherche transnational et pluri-catégoriel
Pérenniser les corpus issus du web vivant : retour d’expériences et perspectives

Archiver le Web : historique et fonctionnement

Les médias numériques

Matériaux numérisés / Digitized material
- Matériaux analogiques qui ont été numérisés : manuscrits numérisés, photographies analogiques, médias électroniques (émission de radio et télévision)
Matériaux nativement numériques / Born-digital material
- Qui n’a jamais existé autrement que sous une forme numérique : un texte numérique, une image numérique, un son numerique, CD Rom, DVD, sites Web ;
Matériaux numériques régénérés/remédiés / reborn-digital material
- Materiaux nativement numériques collectés et conservés: jeux vidéos émulés, archives du Web : reborn digital heritage.

Brügger, Niels. 2016. « Digital Humanities in the 21st Century: Digital Material as a Driving Force ». Digital Humanities Quarterly, 10 (3). http://www.digitalhumanities.org/dhq/vol/10/3/000256/000256.html.

Le World Wide Web en chiffres

En juin 2024, le Web indexé par les moteurs de recherche contiendrait 3,96 milliards de pages : https://www.worldwidewebsize.com En août 2024, Netcraft recense 1 107 785 375 sites répartis sur 270 065 795 domaines et 13 011 016 serveurs physiques (« web-facing computers »)

Vie et mort d’une page web

La durée de vie moyenne d’une page web est de 44 jours ; 44% des sites web recensés en 1998, n’étaient plus trouvables en 1999 (Lyman, 2002 р. 38)
40 % des contenus du web disparaît au cours d’une année, 40 % sont modifiés, voilà pourquoi aujourd’hui, on peut seulement s’attendre à trouver 20 % des contenus qui étaient disponibles il y a un an (Brügger, 2005, p. 15)
En moyenne, une page web subira une modification ou disparaitra, avant 100 jours (Kahle, 2015)
En 2019, selon l’équipe de la Wayback Machine, la durée de vie moyenne d’une page web est de 92 jours

38 % de pages web de 2013 ne sont plus accessibles Chapekis, Athena, Samuel Bestvater, Emma Remy, and Gonzalo Rivero. 2024. « When Online Content Disappears: 38% of Webpages That Existed in 2013 Are No Longer Accessible a Decade Later. » Pew Research Center

Les 1001 raisons des disparitions sur le web

Liptak, Adam. 2013. « In Supreme Court Opinions, Web Links to Nowhere. » The New York Times, September 13, 2013, sec. Politics https://web.archive.org/web/20200218163337/https://www.nytimes.com/2013/09/24/us/politics/in-supreme-court-opinions-clicks-that-lead-nowhere.html?hp&_r=3&#

Friedman, Roger. 2024. « Paramount Erases Archives of MTV Website, Wipes Music, Culture History After 30 Plus Years. » Showbiz411' (blog). June 25, 2024. https://www.showbiz411.com/2024/06/25/paramount-shuts-down-mtv-website-wipes-history-after-20-plus-vears.

Web très vivant et volatile Comment étudier des sources qui évoluent et disparaissent constamment ?

Un problème pour la recherche et la communication scientifique

Error 404, Broken links, Link rot, Reference rot, Infosuicide, digital ruins, content drift, zombie media,.. Erreur 404, lien cassé, (…), suicide numérique, (…), site non maintenu…
Fermetures volontaires et administratives (« take down »), fusions et acquisitions
- Exemple : le 18 mars 2019, on apprend que MySpace a perdu les contenus de ses utilisateurs au cours d’un incident de migration de serveurs qui s’est mal déroulé. Plus de 50 millions de chansons et 12 années de production de contenus ont disparu pour toujours. Il n’y avait pas de sauvegarde (https://en.wikipedia.org/wiki/Myspace).
Histoire
- Exemple : séparation de la Yougoslavie (yu - Serbie and Montenegro,.rs & me) et dissolution de la Tchécoslovaquie (.cs - maintenant Republique Tchèque et Slovaquie, cz & .sk).
Reference rot, a combination of:
- Content decay: The content of the linked resource may change over time and, as a result, the degree to which that content remains representative of the content that was intended to be linked to may decrease over time.
- Link rot: The linked resource may disappear altogether. (Thoughts on Referencing, Linking, Reference Rot http://mementoweb.ora/missing-link/)

Neal, James G. 2014. « The Integrity of Research Is at Risk: Capturing and Preserving Web Sites and Web Documents and the Implications for Resource Sharing. » In . Lyon, France. http://library.ifla.org/id/eprint/907.)

Pourquoi archiver le web ?

Conserver notre patrimoine numérique culturel et scientifique
Stabiliser et conserver les contenus du web en tant qu’objet de recherche
Administrer la preuve et citer les sources

Nielsen, Janne. 2016. Using Web Archives in Research: An Introduction, p.7. Aarhus (Danemark): NetLab. https://digital.library.unt.edu/ark:/67531/metadc1743080/

Définition de l’archivage du web

Web archiving is the process of collecting portions of the World Wide Web, preserving the collections in an archival format, and then serving the archives for access and use. (IIPC Web site, http://netpreserve.org/web-archiving/)

« Web archiving is the process of gathering up data that has been recorded on the World Wide Web, storing it, ensuring the data is preserved in an archive, and making the collected data available for future research. » (Niu, Jinfang. 2012. « An Overview of Web Archiving. » D-Lib Magazine 18 (3/4). https://doi.org/10.1045/march2012-niu1.)

Une communauté structurée

RESAW : https://cc.au.dk/en/resaw IIPC : http://netpreserve.org/

Un format standard

WARC file format = Web ARChive archive format
WARC format international depuis 2009 (ISO 28500:2017)

https://en.wikipedia.org/wiki/Web_ARChive https://wiki.archiveteam.org/index.php/The_WARC_Ecosystem https://wiki.archivematica.org/File:WARCdiagram.ong

Des outils pour l’archivage

Archive-it
Heritrix
Webrecorder
Conifer

Les différentes façons d’accéder aux archives du web

Les archives du web en Finlande (depuis 2006): https://www.kansalliskirjasto.fi/en/collections-and-content-online#finnish-web-archiv
- Les archives du web finlandais sont accessibles uniquement depuis les terminaux du dépôt legal du web à la bibliothèque nationale et dans un reseau de bibliothèques publiques sur le territoire.
Au Portugal (depuis 2008) les archives du web sont accessibles en libre accès : https://arquivo.pt
La Wayback Machine (depuis 2006) est accessible en libre accès : https://archive.org/web/

Un large éventail d’archives du web

Comme pour les autres types d’archives, il est utile de connaître le contexte de production de l’archive pour mieux la comprendre et l’utiliser dans un travail académique. Lorsque vous consultez une archive du web, il s’agit d’une reconstruction et pas d’une simple cople.
« What is harvested is both a point in time (the time of harvesting) and a period of time (the period up to the time of harvesting). » (Brügger, 2008 p. 158)
« On the one hand the archive does not look like the internet as it actually was in the past (we have lost something), but on the other hand the archive might look like the internet as it never was in the past (we get something different). » (Brügger, 2001 p. 6)
Les projets d’archivage du web on besoins des compétences de différents acteurs et de leurs expertises : chercheur-e-s, archivistes, bibliothecaires, juristes, informaticien•nes, spécialistes de la données, … usagêres et usagers, partenaires et membres de la société civile.

Ce qui est collecté devient une archive accompagnée d’une partie de son contexte

Questions éthiques et juridiques

Comme pour les autres types d’archives, il est nécessaire d’agir dans le cadre légale et éthique depuis le processus d’archivage et jusqu’à l’usage qui sera fait des archives du Web :

les documents contenus dans les archives Web sont protégés par les lois sur le droit d’auteur, comme ils le sont sur le Web « vivant »
il existe des « tensions entre les principes archivistiques de préservation des documents publics et les attentes des citoyens en matière de droit à l’oubli » (Bingam, 2018)
le traitement des données personnelles est soumis à des lois et plus encore à l’éthique du projet de recherche
respect du èglement général sur la protection des données (RGPD) / General Data Protection Regulation (GPDR)

Peur, incertitude et doute sur les archives du web

Attauqe contre la British Library : https://www.bl.uk/cyber-incident/ Attaque contre Internet Archive : https://mastodon.archive.org/@internetarchive/113290094683712789

L’historien.ne et les archives du web : un nouveau rapport à l’archive

Une première expérimentation en 2015 (thèse)

Thèse : La fabrique des mémoires de l’immigration maghrébine sur le web française de 1999 à 2014

Dépôt légal du Web français (BnF+INA), Internet Archive cf. Monographie, Presses Universitaires de Provence : https://presses-universitaires.univ-amu.fr/fabrique=memoires-limmigration-maghrebine-web-francais-1999-a-2014

Rapport particulier de l’historien aux documents

Deux principaux besoins pour les historiens / chercheurs en SHS

Accéder aux anciennes versions des sites étudiés
Stabilisr le corpus d’analyse et respecter le « contrat de vérité » (Ricoeur & Dosse 2001)

On doit pouvoir citer nos sources, éléments de « preuves »

Pas simple copie d’un document mais source récréée

Les données du web vivant ne sont pas les mêmes que les données du web archives, on ne peut pas appliquer les mêmes analyses

Loi DADVSI

Droits d’Auteur et Droits Voisins dans la Société de l’Information du 30 juin 2006 institue le dépôt légal (DL) du Web

Les documents multimédias entrent dans le champs d’application du DL
Obligation de dépôt pour les éditeurs
Collecte automatique
Une mission partagée entre la BNF et l’INA
Accès restreint au DL (décret d’application du 19.12.11)

Website story

Sophie GEBEIL, Website story. Histoire, mémoires et archives du Web http://www.inatheque.fr/publications-evenements/publications2021/website-story-histoire-m-moires-et-archives-du-web.html

Objectifs :

présenter l’émergence d’une histoire nativement numérique
préciser les enjeux propres à l’utilisation des archives du web en histoire
proposer une méthodologie historienne
esquisser des repères pour une étude historique des mémoires en ligne

Un domaine de recherche transnational et pluri-catégoriel

Histoire du web : un champ de recherche

Besoins d’archives Web en Histoire, et en SHS

Accéder aux anciennes versions des sites étudiés
Stabiliser le corpus d’analyse et respecter le « contrat de vérité » (P. Ricoeur, F. Dosse 2001)

→ Enjeu épistémologique face au re-born digital heritage Un processus de remediation (Niels, Brugger, 2005)

Défis méthodologique : entre critique documentaire et lecture distante fondée sur les données

Des archives du Web aux données : Valérie Schafer et Sophie Gebeil, « Des archives du Web aux données », Balisages, 6, 2023. URL : http://iournals.openedition.ora/balisages/1066

Pérenniser les corpus issus du web vivant : retour d’expériences et perspectives

WARCnet : comment étudier des événements transnationauw grâce aux archives du Web ?

https://hyphe.medialab.sciences-po.fr/

Etude automatisée de corpus transmédiatiques, l’exemple des représentations de la Marche pour l’égalité et contre le racisme de 1983 sur le Web (Programme PICCH, INA Lab, TELEMMe, MMSH) : https://hal.science/halshs-04580170v1

International Internet Preservation Consortium : https://netpreserve.org/

RESAW : Research Infrastructure for the Study of Archived Web Materials Internet Histories

Exploring the Archived Web During a Highly Transformative Age. RESAW 2023 5-6 June 2023, Marseille
https://books.fupress.com/cataloque/exploring-the-archived-web-during-a-highlv-transform ative-age/14127

Lexique vivant de la révolution et de la guerre en Syrie

https://syria-lexicon.pubpub.org

POC avec le soutien de CEDRE (AMU)

CEntre de formation et de soutien aux Données de la REcherche (CEDRE) : https://cedre.univ-amu.fr/
archivage du patrimoine scientifique de l’AMU

Weblab de la MMSH

allier réflexion et pratique, depuis la Médiathèque de la MMSH https://pba.mmsh.fr/?pageid=1465

Le WebLab est un lieu de réflexion et de pratique pour l’étude du web archivé et des nouveaux médias

Objectifs du WebLab Le WebLab propose de développer et de partager :

des connaissances sur l’archivage du web et son état de l’art
des bonnes pratiques concernant les outils et les méthodologies de collecte et de conservation
des démarches exploratoires concernant l’instrumentation des corpus et leur analyse, en particulier à travers l’utilisation des méthodes archivistiques et scientifiques innovantes
une réflexion sur l’utilisation du web archivé dans le champ académique
une prise en compte systématique des questionnements éthiques et juridiques

Le WebLab bénéficie de la convergence d’un intérêt collectif pour le web archivé sur un territoire propice à l’innovation. En effet, la Médiathèque de la MMSH dispose de deux Postes de Consultation Multimédia de l’Institut national de l’audiovisuel donnant notamment accès aux archives du web média. Elle est également partenaire du projet Virtual Mucem qui s’appuie sur les archives du web de la Bibliothèque nationale de France. A cela s’ajoute des collaborations récurrentes avec la délégation régionale de l’institut national de l’audiovisuel et des contacts récents avec la bibliothèque régionale de l’Alcazar ayant en charge de la collecte du web local. Le WebLab s’appuie également, au niveau d’AMU, sur une collaboration fructueuse avec les équipes de CEDRE (réalisation d’une preuve de concept), la mission Science Ouverte et celle dédiée à l’interdisciplinarité. Alors que le dépôt légal du web français fêtera ses 20 ans en 2026, le WebLab vise à consolider l’expertise du site d’Aix-Marseille, à l’origine de recherches pionnières concernant l’archivage du web.