La méthode repose sur l’analyse et le croisement de différentes sources de données publiques :
- des bases de données, parfois géographiques, en Opendata, qui contiennent de nombreuses informations sur l’évolution des territoires ;
- des métadonnées archivistiques qui fournissent un certain de nombre de renseignements de base ;
- en complément, quelques fonds d’archives précis qui ont fait l’objet d’un dépouillement.
Dans le cas présent, les métadonnées archivistiques sont envisagées comme des bases de données publiques, puisqu’en pratique, c’est sous cette forme qu’elles existent. Il faut aussi noter que de nombreux portails web de services d’archives publient une partie de ces métadonnées archivistiques, et qu’elles font donc, de fait, déjà partie des pratiques historiennes.
Toute base de donnée publique présente des biais internes, liés aux objectifs auxquels elles répondent, à leur mode de constitution et de maintenance. Ce phénomène n’est pas nouveau puisqu’il est amplement documenté en ce qui concerne les bases de données publiques manuscrites que sont les registres d’état-civil ou les matrices cadastrales par exemple. Il convient donc d’aborder les bases de données publiques numériques avec le même type de précautions méthodologiques que celles classiquement utilisées par les historiens pour des registres publics sur papier présents dans des fonds archivistiques.
À cela s’ajoute une problématique spécifique, qui concerne les modes de croisements utilisés entre ces différentes sources.
En effet, l’existence de tables de données suppose de réfléchir plus précisément aux opérations qui permettent de les relier entre elles. Cela passe souvent par certaines transformations qu’il s’agit de documenter rigoureusement pour conserver la trace de l’ensemble du processus de collecte et d’analyse.
L’utilisation d’un langage de scripts est particulièrement indiqué pour cela puisque c’est justement sa raison d’être technique. Les deux principaux langages de scripts utilisés en recherche sont Python et R. Ce dernier est bien connu dans un champ en plein développement : celui de la science reproductible, dans un contexte de développement de la science ouverte. Pour simplifier, un chercheur peut mettre à disposition un script R permettant à d’autres chercheurs de reproduire ses résultats (parfois intermédiaires) à partir des données initiales. L’accès au script permet de critiquer la méthode utilisée, voir de déceler des erreurs ou des biais.
Nous avons donc choisi de traiter les bases de données publiques récoltées par le biais de scripts, quand c’était possible et indiqué. Il y a cependant des exceptions. En effet, une des principales limites des scripts est leur faible adaptations à des erreurs diverses (fautes d’orthographes ou de syntaxes isolées par exemple) dans les bases de données récoltées. Dans ce cas, il est nettement plus efficace de travailler plus classiquement avec un tableur, qui permet de corriger les erreurs ponctuelles de façon interactive.
Dans tous les cas, nous avons choisi de documenter cette étape manuelle dans le script, et de fournir le fichier en entrée et en sortie du tableur, pour conserver la traçabilité du processus de nettoyage.
Les choix des bases de données publiques est basé sur deux critères :
- Quand c’est possible, nous avons préféré utiliser des bases disponibles sur l’ensemble du territoire français, afin de favoriser une possible comparaison ultérieure avec d’autres territoires ; cette approche permet aussi à d’autres chercheurs de critiquer plus facilement l’approche puisqu’ils en font parfois un usage différents dans un autre cadre. Cette remarque est particulièrement vraie pour les données statistiques de l’Insee ou les couches géographiques de l’IGN, largement utilisées dans le monde de la recherche.
- Dans les autres cas, nous avons procédé selon un principe de subsidiarité, en collectant d’abord les données d’échelle métropolitaine, puis en les complétant par des données plus locales, propres à la commune étudiée. Là encore, notre préoccupation était de favoriser le partage le plus large possible de l’information, et son intégration dans des bases de données, géographiques ou non, plus larges.
Il faut également mentionner une approche complémentaire : celle de l’utilisation ponctuelle de dépouillements d’archives déjà réalisés par d’autres chercheurs et partagés dans le cadre d’un article ou d’une thèse. Dans ce cas précis, nous n’avons retenu des informations dépouillées que celles qui répondaient à notre propres questions de recherche. Et nous les avons systématiquement recoupées avec les informations plus générales à notre disposition.
Le recoupement d’informations collectées pose un problème méthodologique spécifique, celui du modèle final de données retenu dans notre propre recherche. Depuis quelques années, de nombreux modèles de données, basés sur des ontologies diverses, ont prospéré dans les recherches utilisant des bases de données. A quoi bon inventer une nouvelle ontologie dans un tel contexte ? Pour autant, il est évidemment nécessaire de disposer d’un modèle de données qui permette de répondre à ses questions de recherche. Il y a donc en pratique une tension entre d’une part, la nécessité d’un minimum de standardisation des données qu’un chercheur récolte, manipule et partage et d’autre part la nécessaire adéquation avec l’objet de recherche et la problématique.
Si la question peut paraître complexe, elle se simplifie considérablement dès lors que l’on choisit une ontologie existante et correctement décrite comme référence. Un état de l’art méthodologique nous a permis de choisir entre différentes ontologies existantes ou en cours de conception pour ancrer notre propre travail. C’est finalement principalement le guide d’indexation pour le web publié par les Archives nationales sur la base de normes internationales, qui nous a servi de référence.
Pour des raisons techniques, cependant, nous avons cependant du adapter les noms de champs pour des utilisations dans des SIG. Mais, là encore, des tables de conversion des noms de champs ont été produites pour conserver la traçabilité de la démarche.
Métadonnées institutionnelles : les pratiques
La quasi totalité des services français d’archives utilisent, pour leur gestion interne, un système d’indexation archivistique, qui leur permet de gérer l’ensemble du traitement des archives selon des étapes identifiées :
- collecter des documents ;
- classer des documents ;
- conserver des documents ;
- communiquer des documents.
Dans le cadre de notre recherche, ce qui nous a principalement intéressé, c’est la possibilité de faire un usage détourné de certaines métadonnées archivistiques à des fins de recherche. Nous nous sommes ainsi principalement intéressés à deux actions différentes au cours de cette chaine de traitement :
- la description du document physique ;
- une partie de son indexation.
En pratique, en effet, la description d’un document par des archivistes est assez comparable au travail réalisé par des bibliothécaires.
Les chercheurs qui utilisent des logiciels de gestion bibliographique (comme Zotero, qui est le plus courant), savent combien ce travail réalisé en amont, par les bibliothécaires des universités ou de la Bnf, leur fait économiser du temps pour la réalisation de leur bibliographie de recherche. Grâce à cette description, il est rapide d’importer dans son logiciel de gestion bibliographique l’ensemble des métadonnées décrivant des ouvrages, de les classer selon sa propre logique et ses propres questions, pour ensuite, établir une bibliographie raisonnée. De la même manière, les métadonnées complétées lors de la publication d’articles en ligne, peuvent également être importées rapidement par un chercheur pour alimenter sa bibliographie. Ceci est également valable pour les publications scientifiques sur la plateforme Hal.
La communauté des chercheurs utilise donc déjà largement des métadonnées documentaires dans ses pratiques bibliographiques.
Or, on peut transposer la réflexion qui a abouti à cette mise à disposition de métadonnées bibliographiques à celles qui décrivent des documents d’archive. Il s’agit dans les deux cas de décrire un document, de le classer et de pouvoir le retrouver en interrogeant une base de données de différentes manières.
Mais un tel usage des métadonnées archivistiques suppose que celles-ci soient correctement remplies et que le chercheur puisse y avoir accès.
On rencontre alors une deuxième question, qui est celle de l’indexation des documents par les bibliothécaires ou les archivistes. En effet, dès lors que l’on manipule une grande quantité de données, la qualité de l’indexation devient stratégique.
Pour la bibliographie, on comprend aisément, avec l’exemple de l’auteur d’un document, que l’on rencontrera nécessairement des problèmes pratiques s’il est nommé de plusieurs façons différentes.
Doit-on par exemple écrire : « Le Corbusier » ou « Charles-Édouard Jeanneret-Gris, dit Le Corbusier » ou bien « Jeanneret, Charles-Édouard (dit Le Corbusier) » ou encore « Le Corbusier (1887-1965) » ?
Les problèmes dans une base de données apparaissent quand on ne choisit pas une de ces formes pour l’appliquer systématiquement et que l’on se retrouve avec différentes appellations, empêchant par exemple de faire des listes ou des statistiques sur l’ensemble de l’œuvre de Le Corbusier. Un deuxième problème apparaît lorsqu’il n’est pas possible d’établir de correspondance entre le terme de référence (pour la BNF : « Le Corbusier (1887-1965) ») et les autres termes possibles (« Charles-Édouard Jeanneret-Gris, dit Le Corbusier », « Le Corbusier », etc.).
Dans la perspective d’une recherche, ce genre de problème peut-être à l’origine de biais importants dans une analyse statistique ou plus simplement lorsqu’un certain systématisme dans la description est recherché. A contrario, si la base de données est correctement indexée, il sera possible, par exemple, de produire des statistiques concernant les différents auteurs des documents qui constituent un corpus de textes, ou plus simplement, des listes de sources exhaustives.
Pour faire simple, l’indexation consiste donc à relier un document à des mots-clefs écrits selon des règles précises et relevant de différentes catégories conceptuelles explicites et cohérentes.
A titre d’exemple, le nom d’un architecte peut relever de la catégorie « auteur », de celles de « maître d’œuvre » ou plus globalement de celle de « personne physique » selon le modèle de données choisi. On aura une base de données de qualité si le nom de l’auteur est le même dans l’ensemble de la base et si l’usage des catégories est cohérent et pertinent. Cela permettra par exemple de trouver l’ensemble des documents produits par cet auteur, via une requête.
Pour rappel, l’usage des requêtes est aujourd’hui extrêmement développé chez les internautes : c’est ce qu’ils font lorsqu’ils interrogent un moteur de recherche. Les usagers de différents logiciels métiers utilisent également des requêtes, le plus souvent sans en avoir conscience. Or cette action, très quotidienne, repose sur une réflexion sous-jacente très poussée sur l’indexation, menée de longue date par les organisations qui ont conçu ces moteurs de recherche ou ces logiciels. Elle repose aussi, indirectement, sur une longue tradition documentaire qui a consisté, au fil du temps, à mettre au point des méthodes de classement et de description d’objets plus divers les uns que les autres.
Dans le champ scientifique, les requêtes sont également largement utilisées. Une recherche dans Hal, par exemple, est une requête, et de nombreux chercheurs utilisent, de fait, des filtres de recherche, lorsqu’ils cochent certaines cases pour affiner leur exploration. Or ces filtres reposent sur un vocabulaire contrôlé ( « Article dans une revue », « Communication dans un congrès », » Poster », etc.). Et la recherche ne peut aboutir que parce que ces différents termes descriptifs ont été associés au document lors de son dépôt sur la plateforme.
Les requêtes sont également très courantes dans le champ scientifique pour réaliser des cartes ou des statistiques. C’est particulièrement évident en géographie ou en urbanisme. On peut, par exemple, décider de cartographier l’ensemble des écoles maternelles d’un territoire, ou l’ensemble des établissement d’enseignement primaire, ou l’ensemble des établissement d’enseignement relevant de l’éducation nationale, ou l’ensemble des établissements d’enseignement tout court. Ce type de cartographie suppose donc de disposer de catégories permettant de regrouper différents établissements, et de les retrouver rapidement grâce à des requêtes. Une fois la requête réalisée, on disposera alors de l’ensemble des établissements que l’on souhaite voir apparaître sur une carte ou dans une analyse statistique.
Ainsi, le raisonnement précédemment décrit pour les auteurs s’applique à d’autres catégories comme les personnes morales, les lieux, les adresses, les parcelles, les édifices, etc…
Pour faire des cartes ou des statistiques sur des édifices, il est donc nécessaire de pouvoir nommer ceux-ci d’une seule façon, en sachant précisément ce que l’on nomme ainsi. Or cette opération ne va pas de soi, puisque dans le langage naturel, les humains peuvent appeler une même entité, un même objet de plusieurs façons. Il est également nécessaire de créer des catégories adaptées permettant de classer ces édifices de différentes façon afin de faciliter leurs regroupements. C’est la raison pour laquelle ont été inventés les langages contrôlés, qui sont au fondement de toutes les sciences de l’information.
Ainsi, l’indexation archivistique selon la norme internationale EAD consiste à relier un fond ou un document d’archives à des « descripteurs » organisés en trois grandes catégories :
> Les agents, noms propres, servent à décrire les personnes physiques individuelles, les familles et les personnes morales : collectivités, organismes, associations, etc. qui sont acteurs (producteur, auteur, destinataire…) ou sujets d’une information décrite dans les archives.
> Les lieux, noms propres, décrivent un territoire géographique naturel ou défini par l’homme, plus ou moins étendu, un élément naturel géographique (montagne, cours d’eau) ou des infrastructures réalisées par l’homme (édifice, routes, rue, pont, canal, chemin de fer).
> Les sujets, noms communs, correspondent à des mots-clefs matière.
pp. 21-22.
On voit que chaque grande catégorie comporte elle-même des sous-catégories, qu’un chercheur peut éventuellement être amené à questionner : est-il par exemple pertinent de distinguer aussi nettement les éléments naturels géographiques et les infrastructures réalisées par l’homme ?
Avec ce type de question, on touche à un biais que peut induire l’usage de bases de données existantes à des fins de recherche. Si l’on n’y prend garde, on peut être amené à faire un usage naïf de catégories de classement définies par les auteurs et les gestionnaires des bases de données. En effet, ces catégories renvoient à des concepts et des définitions, qui ne sont pas nécessairement celles qui seront retenues dans une recherche.
Par ailleurs, la catégorie « lieux » proposée en EAD rejoint ici la problématique des classes d’objets bien connue dans le domaine de l’information géographique. La réalisation de cartes choroplèthes repose, par exemple, sur la constitution de classes d’objets pertinentes. Cette classe peut reposer sur des critères très divers, qui doivent être à la fois explicites et adaptés à la description du phénomène étudié.
On voit donc ici s’esquisser l’usage que l’on peut faire des métadonnées archivistiques à des fins de recherche : elles peuvent servir à identifier systématiquement les relations entre des fonds archivistiques (ou certaines sources) et des auteurs (par exemple des architectes), des lieux ou des édifices. Elles peuvent aussi indirectement venir enrichir les tables attributaires de couches géographiques, ou même alimenter une base de données géographique. La récolte de métadonnées et le traitement de métadonnées archivistique est donc un moyen pour obtenir des premières informations sur un territoire ou un ensemble d’édifices sur la longue durée.
Mais on touche aussi aux limites de cet usage : il n’a de sens dans une recherche que s’il fait l’objet d’un questionnement plus abstrait sur le mode de description des objets recensés et analysés.
Par ailleurs, malheureusement, l’historique, parfois aléatoire, des services d’archives municipaux ne permettent pas toujours de bénéficier d’une indexation de qualité des fonds. Si l’on récupère des métadonnées archivistiques, il peut donc être nécessaire de procéder à un nettoyage, plus ou moins profond, des index et par voie de conséquence des descriptions des documents indexés. Cette remarque est d’ailleurs valable pour d’autres bases de données publiques, car la qualité des données partagées est très variable selon les institutions.
Même si cela peut paraître contre-intuitif à des personnes habituées à partir d’un document d’archive ou d’un édifice pour l’analyser, la logique des bases de données suppose donc de s’intéresser d’abord aux index existants, à leur cohérence, aux définitions et aux périmètres qui les sous-tendent.
Quand on utilise des métadonnées archivistiques, une première étape consiste donc à nettoyer les index archivistiques. Cela conduit alors à questionner, expliciter et stabiliser ces index. On peut donc être amené à les adapter, pour ensuite les mobiliser dans la description des documents archivistiques eux-mêmes et dans les entités analysées (des parcelles, des bâtiments, des établissements, des acteurs sociaux, etc…) au cours d’une recherche.
Cette démarche est la seule permettant de garantir une certaine systématicité dans la description des documents et objets étudiés. En effet, ne partir que du document ou de l’objet peut rapidement conduire à des index trop fortement dépendant de fonds ou de questions spécifiques, au détriment d’une vision plus abstraite, susceptible de s’appliquer à des situations différentes.
La visée systématique qui suppose la constitution d’index et de thesaurus a d’ailleurs également été importante dans les réflexions scientifiques qui ont donné naissance à différents systèmes descriptifs utilisés par les inventaires institutionnels du patrimoine culturel français : le système descriptif de l’architecture, le système descriptif des représentations, etc.
À bien y regarder, les institutions culturelles nationales font un usage intense de l’indexation et des ontologies descriptives, puisque cette problématique concerne, en plus des bibliothèques et des services d’archives, les musées et les services patrimoniaux visant la documentation ou la préservation de sites ou d’édifices. Dans tous ces cas, c’est l’existence de modèles conceptuels de données sous-jacents (appelés au départ « systèmes descriptifs ») et de vocabulaires contrôlés, qui a rendu possible l’informatisation des divers inventaires patrimoniaux puis leur partage au public via des portails web.
Les institutions géographiques (comme l’IGN), statistiques (comme l’Insee ou Eurostat), ou administratives (comme la DGFiP) font appel, elles aussi, à des vocabulaires contrôlés même si ce n’est pas le terme qu’elles utilisent. Elles parlent plus volontiers de « nomenclature » (pour l’Insee), de « classes d’objets », d' »attributs » et de ‘ »valeurs possibles » (pour l’IGN), ou de « dictionnaire des variables » (pour la DGFiP). Tout ceci revient, en pratique, à utiliser des listes de vocabulaires contrôlés et des catégories conceptuelles pour désigner et classer des entités de natures diverses. Le terme « métadonnées » est d’ailleurs largement utilisé en matière de données géographiques, domaine dans lequel il est recommandé d’accompagner tout jeu de données, de ses métadonnées décrites de façon normalisée.
Les politiques publiques de mise en ligne de ces différentes bases de données institutionnelles ont suscité de nouveaux questionnements et principalement celle de l’harmonisation des différents systèmes descriptifs entre eux. Cette démarche est en cours depuis quelques années, et elle prendra encore un certain temps avant d’aboutir complètement.
La difficulté de la tâche montre que la réflexion au moment de la création de thesaurus ou d’index est fortement structurante : il est ensuite complexe de la refondre pour l’adapter à de nouveaux objectifs, objets, usages ou à de nouvelles questions. On voit donc l’importance d’inscrire d’emblée la réflexion dans une perspective large, pour permettre l’évolution d’un système descriptif aux cas qu’il n’avait pas prévu.
Ainsi, une indexation trop spécifique pose problème lorsqu’il s’agit de croiser des bases de données publiques différentes pour en extraire l’information qui intéresse le chercheur ou plus globalement les usagers. Comment peut-on croiser des informations fiscales avec des données géographiques si les périmètres et les définitions retenues dans deux bases de données de référence sont différentes ? C’est tout l’enjeu de l’harmonisation et de la traduction (ou « alignement ») des données entre elles.
Incidemment, ce problème renvoie à une questionnement bien connu en recherche : celui des conditions de généralisation à partir d’un cas ou d’un objet de recherche spécifique. Il n’est en effet possible de généraliser que si l’on peut comparer différents cas et si l’on peut les inscrire dans une vision plus générale. Par exemple, il n’est possible d’avoir une pensée générale sur l’occupation du sol ou les évolutions démographiques en Europe que parce que des bases de données, avec des catégories précises et explicites, des façons homogènes de quantifier ces phénomènes, existent à l’échelle européenne.
Cette question de l’harmonisation et de l’alignement des données fait actuellement l’objet de recherches et d’expériences pratiques, dans le cadre d’une uniformisation progressive du web des données (ou « web sémantique » ou « linked data« ). En effet, le partage de métadonnées très diverses sur le web a connu une croissance importante et a suscité diverses conceptualisations. [A compléter avec biblio spécifique sur le linked data].
La tendance actuelle est à la mise en place ou à la refonte de standards internationaux selon les types de données (bibliographiques, archivistiques, statistiques, géographiques, etc…). Ce processus accompagne de réflexions plus générales en informatique sur les meilleurs moyens de construire un « web sémantique ». [A développer]
Dans ce contexte, différentes institutions françaises se sont donc engagées dans des démarches qui conjuguent adaptation aux nouveaux enjeux du web des données et rapprochement progressif des pratiques documentaires des institutions entre elles.
La réflexion est très avancée dans les bibliothèques, et notamment à la BnF, qui propose dores et déjà un cite dédié, data.bnf.fr, issu de réflexions internationales des bibliothécaires sur le web des données. En 2017 a été publié la norme internationale IFLA-LRM (Library Reference Model) défini par la Fédération internationale des associations de bibliothécaires et des bibliothèques (IFLA). En complément, la constitution, depuis 2010, de groupes de travail français dédiés ont permis une évolution des pratiques en matière de métadonnées bibliographiques. Cette « transition bibliographique » concerne non seulement la Bnf, mais aussi certains acteurs de l’enseignement supérieur, pour permettre un alignement des données entre le site de la BnF, Sudoc et Hal. C’est d’ailleurs ce qui explique qu’un chercheur puisse aujourd’hui alimenter automatiquement sa bibliographie à partir de ces différentes plateformes. On trouve déjà dans cette démarche, la référence à des vocabulaires contrôlés extérieurs : des classiques de la bibliographie internationale, mais aussi des références plus géographiques comme Geonames , ou une esquisse d’ontologie géographique proposée par l’IGN.
Pour les archives, la réflexion est portée par l’International Council of Archives. Certains acteurs des Archives Nationales, comme Florence Clavaud, conservatrice en chef du patrimoine, font partie du groupe d’expert (Expert Group on Archival Description), en charge de la réflexion sur le web des données. Ce travail a abouti à la publication, en 2021, d’une première version de la norme internationale, RiC-O (Records in Contexts-Ontology), qui va encore connaître de nouveaux développements. En parallèle, les Archives nationales ont bénéficié des avancées du programme de transition bibliographique précité et cherchent à aligner partiellement leurs index et thesaurus avec ceux de la BnF et du Sudoc. Elles ont aussi engagé des échanges avec certains chercheurs partiellement documentés sur blog hypothèses dédié.
Dans une perspective de recherche, cela signifie que les méthodes documentaires qui permettent l’accès à des informations bibliographique ou à des fonds d’archives sont en cours d’harmonisation. De la même façon que l’arrivée de logiciels de gestion bibliographiques ont modifié les pratiques de certains chercheurs, on peut donc s’attendre à ce que la gestion des sources historiques connaisse des développements similaires. Cette analogie fait d’autant plus sens que le développement du logiciel bibliographique libre le plus utilisé, Zotero, a, au départ, été d’abord portée par une communauté d’historiens. Il prévoit déjà une description des sources archivistiques, mais celle-ci reste limitée, malgré l’existence de demandes en ce sens de la communauté de ses utilisateurs.
Les institutions du champ concernées par la statistique et l’aménagement du territoire (IGN, Insee, DGFiP) se sont engagées elles aussi dans une démarche de rapprochement de leurs pratiques descriptives. La différence principale principale avec les précédents exemples est que ces pratiques concernent des objets assez différents. Depuis un moment déjà, le Code Officiel Géographique (COG) constitue une référence commune pour décrire des entités administratives et géographiques et les contours Iris définis par l’Insee sont diffusés par l’IGN. Par ailleurs, les échanges d’informations nécessaires entre acteurs du cadastre (collectivités locales, DGFiP et IGN) ou des adresses (La Poste, DGFiP, IGN, collectivités locales et à la marge OpenStreetMap) conduisent à une harmonisation progressive de leurs pratiques descriptives. Cela suppose de changements conceptuels, techniques et organisationnels pour chacun de ces acteurs. Mais ceux-ci sont une condition nécessaire pour rendre possible l’échange et le recollement d’informations produites au départ pour répondre à des objectifs différents. Ces démarches ont a donné naissance à de nouvelles bases de données nationales de référence. Pour le cadastre le Parcellaire Express (PCI vecteur) est alimenté par différentes institutions, diffusé par l’IGN et a valeur de référentiel national. Pour les adresses, c’est la Base adresse nationale (BAN) qui fait référence.
Certains des travaux sont venus irriguer la réflexion des Archives nationales sur l’indexation des « lieux » (selon la définition qu’en donne l’EAD). En effet, afin d’œuvrer à une meilleure interopérabilité des bases de données institutionnelles entre elles, ont été listés différents référentiels disponibles pour de l’indexation archivistique : outre ceux utilisés par la Bnf et les institutions patrimoniales du Ministère de la culture, on y trouve le Code géographique officiel et la Base adresse nationale. Dans la perspective de notre recherche, seules les référentiels cadastraux sont manquants.
Comment donc trouver un mode de description qui soit le plus partageable possible pour notre recherche, puisqu’en pratique, ceux-ci sont très divers ?
Le recensement de ces différentes pratiques en matière de métadonnées institutionnelles nous a conduit à prendre pour référence principales celles des Archives nationales. La démarche de cette institution étant plus tardive, c’est celle qui intègre le plus largement les évolutions de vocabulaires contrôlés des autres institutions. C’est donc à notre sens l’approche à la fois la plus complète et la plus synthétique.
Elle fait aussi sens au vu de notre objet de recherche, et dans un contexte de développement important des humanités numériques, notamment dans les sciences historiques. Dès lors que notre recherche porte sur le temps long et utilise notamment des sources et des métadonnées archivistiques, il nous a donc semblé logique de suivre les préconisations des Archives nationales en la matière, même si nous avons été amenés à les adapter dans certains cas. Il s’agit de permettre le partage de notre démarche, mais aussi de garantir que notre recherche pourrait être comparé à d’autres cas, faisant nécessairement appel à d’autres fonds locaux ou à des fonds nationaux.
Par ailleurs, la sortie de la norme RiC-O a donné lieu à la publication, par le Service interministériel des Archives de France, d’un Guide d’indexation pour le web. Il prend en compte les évolutions des normes archivistiques en cours et entend préparer en amont le passage de la norme internationale actuelle EAD-DTD (Encoded Archival Description ou description archivistique encodée) à la future norme RiC-O (Record in Context – Ontology). Ce document présente plusieurs avantages : clarté, rigueur, qualité de l’état de l’art documentaire et normatif, facilité d’application, actualité de la réflexion.
Se baser sur les derniers référentiels dédiés à la publication d’archives sur le web permet donc de prendre en compte de nombreuses réflexions en cours et d’inscrire notre méthode dans un cadre plus général. Cela permet, dans une certaine mesure, de mettre en lien des métadonnées archivistiques, bibliographiques et géographiques ou statistiques.
Concrètement, un grand nombre de services municipaux d’archives utilisent comme SIA le logiciel Avenio, dont la conception est relativement simple.
Dans le cas de la commune de Villeurbanne, nous avons extrait les index de ce logiciel pour les nettoyer et les rendre autant que possibles conformes aux préconisations des Archives Nationales. Ces préconisations relèvent essentiellement de règles d’écriture générale qui permettent de « normaliser les descripteurs, de réduire les ambiguïtés et de favoriser leur interopérabilité »(p24). Ces règles sont cependant suffisamment ouvertes pour permettre leur adaptation à un projet ou un fonctionnement spécifique.
Elles concernent essentiellement la structure d’un descripteur présent dans l’index, sa syntaxe et sa typographie. En cela, ces règles sont assez comparables à celles que l’on peut retrouver dans certains styles bibliographiques utilisés dans les écrits scientifiques. Nous avons souhaité ne prendre en compte que les index descriptifs (rassemblés sous les catégories agents et lieux), et évacué l’épineuse question de l’indexation thématique (les « mots-matières ») qui suppose nécessaire une réflexion plus approfondie sur les catégories conceptuelles mobilisées. On peut en effet s’attendre à ce que ces catégories thématiques n’aient pas la même pertinence dans un système d’archives et dans une démarche de recherche. Par contre, les index descriptifs sont suffisamment généraux pour être adaptés à des situations très différentes.
Nous avons ensuite extrait les descriptions archivistiques des fonds qui nous intéressaient, ainsi que les tables de relations qui permettent de faire le lien entre ces fonds et les index nettoyés. Cette approche nous a permis d’obtenir une description homogène des fonds pour y sélectionner les informations et les sources qui pouvaient nous intéresser.
Il faut cependant insister sur un point : le rapport que nous avons entretenu à au référentiel des Archives nationales pour constituer une base de données est plus conceptuel que technique. Il ne s’agissait pas, en effet, de mettre au point un process technique permettant la conversion de toutes les archives municipales dotées du même logiciel. Il s’agissait plutôt de penser une description des données archivistiques et des résultats des dépouillement qui s’inscrive dans une logique générale relativement partagée. On est là plus du côté du modèle conceptuel de données que de l’implémentation technique. En effet, la norme RiC-O étant jeune, il est très probable que des process efficaces seront un jour où l’autre mis au point par des institutions ou certains de leurs prestataires. Par ailleurs, en rester au modèle conceptuel de données permet de garder une certaine distance avec les pratiques archivistiques concrètes, pour réfléchir plus abstraitement aux informations récoltées sur l’objet de recherche qui nous intéresse.
Pour Villeurbanne, certains fonds ont été décrits de façon sommaire et n’ont pas été indexés. C’est par exemple le cas des cadastres historiques ou des délibérations du Conseil Municipal, des sources importantes pour comprendre à la fois l’évolution du territoire et la chronologie des décisions concernant le foncier communal et les édifices municipaux.
Dans une perspective visant une certaine systématicité, nous avons donc entrepris d’indexer ces fonds lorsque c’était nécessaire à notre recherche. On voit ici ecnore que cette approche n’était pas possible dans une réflexion préalable sur les index eux-mêmes. Assez logiquement, nous avons choisi d’utiliser l’analyse sémantique pour indexer les fonds des délibérations du Conseil Municipal, et l’approche spatiale pour indexer les feuilles de cadastres que nous avons utilisés.
On voit ici, au passage, que des méthodes très utilisées en recherche pourraient trouver des applications inattendues pour la gestion de fonds patrimoniaux, si les institutions gestionnaires y étaient favorables.
Les index
Le projet R documentant les différentes étapes de traitement des données est déposé en annexe [Lien]
