Présentation – Les archives du web : enjeux de collecte et de préservation des corpus Web en SHS

16 octobre 2024

Intervenants :

Résumé

Que ce soit dans le cadre de nos études, de nos activités de recherche ou d’enseignement, nous mobilisons toutes et tous des documents ou des services accessibles via des sites web ou des réseaux sociaux. Le web se fait tantôt moyen de communication, encyclopédie, ressource pédagogique, outil de traduction automatisée, mais aussi corpus ou terrain d’enquête. Si ces pratiques ont désormais intégré nos routines professionnelles et personnelles, elles interrogent les modes de transmission et d’évaluation des savoirs. Cette intervention associe une historienne et un bibliothécaire engagé.es dans la construction d’un WebLab, espace de réflexion et de pratique pour l’étude et l’utilisation de l’archivage du web pour les SHS. Elle se propose d’envisager comment explorer, conserver et transmettre les données du Web dans le processus de recherche en sciences humaines et sociales.

Présentation complète

Plan

  1. Archiver le Web : historique et fonctionnement
  2. L’historien.ne et les archives du web : un nouveau rapport à l’archive
  3. Un domaine de recherche transnational et pluri-catégoriel
  4. Pérenniser les corpus issus du web vivant : retour d’expériences et perspectives

Archiver le Web : historique et fonctionnement

Les médias numériques

Brügger, Niels. 2016. « Digital Humanities in the 21st Century: Digital Material as a Driving Force ». Digital Humanities Quarterly, 10 (3). http://www.digitalhumanities.org/dhq/vol/10/3/000256/000256.html.

Le World Wide Web en chiffres

En juin 2024, le Web indexé par les moteurs de recherche contiendrait 3,96 milliards de pages : https://www.worldwidewebsize.com En août 2024, Netcraft recense 1 107 785 375 sites répartis sur 270 065 795 domaines et 13 011 016 serveurs physiques (« web-facing computers »)

Vie et mort d’une page web

38 % de pages web de 2013 ne sont plus accessibles Chapekis, Athena, Samuel Bestvater, Emma Remy, and Gonzalo Rivero. 2024. « When Online Content Disappears: 38% of Webpages That Existed in 2013 Are No Longer Accessible a Decade Later. » Pew Research Center

Les 1001 raisons des disparitions sur le web

Liptak, Adam. 2013. « In Supreme Court Opinions, Web Links to Nowhere. » The New York Times, September 13, 2013, sec. Politics https://web.archive.org/web/20200218163337/https://www.nytimes.com/2013/09/24/us/politics/in-supreme-court-opinions-clicks-that-lead-nowhere.html?hp&_r=3&#

Friedman, Roger. 2024. « Paramount Erases Archives of MTV Website, Wipes Music, Culture History After 30 Plus Years. » Showbiz411' (blog). June 25, 2024. https://www.showbiz411.com/2024/06/25/paramount-shuts-down-mtv-website-wipes-history-after-20-plus-vears.

Web très vivant et volatile Comment étudier des sources qui évoluent et disparaissent constamment ?

Un problème pour la recherche et la communication scientifique

Neal, James G. 2014. « The Integrity of Research Is at Risk: Capturing and Preserving Web Sites and Web Documents and the Implications for Resource Sharing. » In . Lyon, France. http://library.ifla.org/id/eprint/907.)

Pourquoi archiver le web ?

Nielsen, Janne. 2016. Using Web Archives in Research: An Introduction, p.7. Aarhus (Danemark): NetLab. https://digital.library.unt.edu/ark:/67531/metadc1743080/

Définition de l’archivage du web

Web archiving is the process of collecting portions of the World Wide Web, preserving the collections in an archival format, and then serving the archives for access and use. (IIPC Web site, http://netpreserve.org/web-archiving/)

« Web archiving is the process of gathering up data that has been recorded on the World Wide Web, storing it, ensuring the data is preserved in an archive, and making the collected data available for future research. » (Niu, Jinfang. 2012. « An Overview of Web Archiving. » D-Lib Magazine 18 (3/4). https://doi.org/10.1045/march2012-niu1.)

Une communauté structurée

RESAW : https://cc.au.dk/en/resaw IIPC : http://netpreserve.org/

Un format standard

https://en.wikipedia.org/wiki/Web_ARChive https://wiki.archiveteam.org/index.php/The_WARC_Ecosystem https://wiki.archivematica.org/File:WARCdiagram.ong

Des outils pour l’archivage

Les différentes façons d’accéder aux archives du web

Un large éventail d’archives du web

Ce qui est collecté devient une archive accompagnée d’une partie de son contexte

Questions éthiques et juridiques

Comme pour les autres types d’archives, il est nécessaire d’agir dans le cadre légale et éthique depuis le processus d’archivage et jusqu’à l’usage qui sera fait des archives du Web :

Peur, incertitude et doute sur les archives du web

Attauqe contre la British Library : https://www.bl.uk/cyber-incident/ Attaque contre Internet Archive : https://mastodon.archive.org/@internetarchive/113290094683712789

L’historien.ne et les archives du web : un nouveau rapport à l’archive

Une première expérimentation en 2015 (thèse)

Thèse : La fabrique des mémoires de l’immigration maghrébine sur le web française de 1999 à 2014

Dépôt légal du Web français (BnF+INA), Internet Archive cf. Monographie, Presses Universitaires de Provence : https://presses-universitaires.univ-amu.fr/fabrique=memoires-limmigration-maghrebine-web-francais-1999-a-2014

Rapport particulier de l’historien aux documents

Deux principaux besoins pour les historiens / chercheurs en SHS

On doit pouvoir citer nos sources, éléments de « preuves »

Pas simple copie d’un document mais source récréée

Les données du web vivant ne sont pas les mêmes que les données du web archives, on ne peut pas appliquer les mêmes analyses

Loi DADVSI

Droits d’Auteur et Droits Voisins dans la Société de l’Information du 30 juin 2006 institue le dépôt légal (DL) du Web

Website story

Sophie GEBEIL, Website story. Histoire, mémoires et archives du Web http://www.inatheque.fr/publications-evenements/publications2021/website-story-histoire-m-moires-et-archives-du-web.html

Objectifs :

Un domaine de recherche transnational et pluri-catégoriel

Histoire du web : un champ de recherche

Besoins d’archives Web en Histoire, et en SHS

→ Enjeu épistémologique face au re-born digital heritage Un processus de remediation (Niels, Brugger, 2005)

Défis méthodologique : entre critique documentaire et lecture distante fondée sur les données

Des archives du Web aux données : Valérie Schafer et Sophie Gebeil, « Des archives du Web aux données », Balisages, 6, 2023. URL : http://iournals.openedition.ora/balisages/1066

Pérenniser les corpus issus du web vivant : retour d’expériences et perspectives

WARCnet : comment étudier des événements transnationauw grâce aux archives du Web ?

https://hyphe.medialab.sciences-po.fr/

Etude automatisée de corpus transmédiatiques, l’exemple des représentations de la Marche pour l’égalité et contre le racisme de 1983 sur le Web (Programme PICCH, INA Lab, TELEMMe, MMSH) : https://hal.science/halshs-04580170v1

International Internet Preservation Consortium : https://netpreserve.org/

RESAW : Research Infrastructure for the Study of Archived Web Materials Internet Histories

Lexique vivant de la révolution et de la guerre en Syrie

POC avec le soutien de CEDRE (AMU)

Weblab de la MMSH

allier réflexion et pratique, depuis la Médiathèque de la MMSH https://pba.mmsh.fr/?pageid=1465

Le WebLab est un lieu de réflexion et de pratique pour l’étude du web archivé et des nouveaux médias

Objectifs du WebLab Le WebLab propose de développer et de partager :

  1. des connaissances sur l’archivage du web et son état de l’art
  2. des bonnes pratiques concernant les outils et les méthodologies de collecte et de conservation
  3. des démarches exploratoires concernant l’instrumentation des corpus et leur analyse, en particulier à travers l’utilisation des méthodes archivistiques et scientifiques innovantes
  4. une réflexion sur l’utilisation du web archivé dans le champ académique
  5. une prise en compte systématique des questionnements éthiques et juridiques

Le WebLab bénéficie de la convergence d’un intérêt collectif pour le web archivé sur un territoire propice à l’innovation. En effet, la Médiathèque de la MMSH dispose de deux Postes de Consultation Multimédia de l’Institut national de l’audiovisuel donnant notamment accès aux archives du web média. Elle est également partenaire du projet Virtual Mucem qui s’appuie sur les archives du web de la Bibliothèque nationale de France. A cela s’ajoute des collaborations récurrentes avec la délégation régionale de l’institut national de l’audiovisuel et des contacts récents avec la bibliothèque régionale de l’Alcazar ayant en charge de la collecte du web local. Le WebLab s’appuie également, au niveau d’AMU, sur une collaboration fructueuse avec les équipes de CEDRE (réalisation d’une preuve de concept), la mission Science Ouverte et celle dédiée à l’interdisciplinarité. Alors que le dépôt légal du web français fêtera ses 20 ans en 2026, le WebLab vise à consolider l’expertise du site d’Aix-Marseille, à l’origine de recherches pionnières concernant l’archivage du web.