Le premier projet de l’Initiative de
collaboration entre les bibliothèques françaises et nord-américaines (ICBFN)/Collaborative
Initiative for French and North-American Libraries (CIFNAL) est une
collaboration entre trois organismes[1]:
CIFNAL; ARTFL; et la Médiathèque de l’agglomération Troyenne. Le
projet comprend trois volets: la numérisation, le traitement et reconnaissance des
textes, et l’inclusion dans la base de données d’ARTFL d’un corpus d’œuvres de la Bibliothèque
bleue de Troyes. Dans cette communication, je parlerai de la conception du projet, du
développement des liens entre CIFNAL, ARTFL,
et la Médiathèque,
et des résultats obtenus jusqu'à présent.
Un objectif clé de CIFNAL est la création
des liens entre des bibliothèques francophones du monde entier, et en
particulier, entre les bibliothèques nord-américaines et leurs homologues dans
le monde francophone. Dans ce contexte,
nous essayons de faciliter le partage des ressources entre les bibliothèques
qui ont des fonds en langue française. Les concepts de ressource et de partage
doivent être considérés dans le sens large : la promotion des liens entre les
institutions et organismes, la diffusion du contenu des collections et des
sujets de recherche par la création d’inventaires et catalogues de collections,
l’aide au demande d’emprunt de documents rares entre les bibliothèques, et le
travail en collaboration sur la création des nouveaux fonds numériques. Le
projet de la
Bibliothèque bleue de Troyes répond à tous ces objectifs.
La Bibliothèque bleue est le nom donné aux petits livrets vendus par des colporteurs entre
les 17e et 19e siècles. Leur nom vient de la couleur du papier habituellement
utilisé pour leurs couvertures, le même papier bleu servait pour emballer les
pains de sucre. Ils étaient des petits in-12 ou même plus petits, imprimés sur
un papier de mauvaise qualité, mal brochés, mais avec quelques avantages. Ils
coutaient seulement quelques sous, et donc étaient accessible à presque tous,
et leur diffusion était assurée par des colporteurs qui s’approvisionnaient à
Troyes avant de partir sur leurs chemins de ventes (d’où le terme «livres de
colportage »). Destinés aux classes populaires, les livrets contiennent
des versions simplifiées d’histoires populaires, de chansons, de livres
religieux, et des recueils d’informations pratiques. En France, ils étaient le
produit des presses dans plusieurs villes provinciales et en particulier à
Troyes. En fait, le genre est né dans cette ville au début du 17e
siècle par l’imprimeur-libraire Nicolas Oudot, dont
l’invention eu un tel succès que le format fut rapidement imité par des
libraires dans autres villes provinciales, et même dans d’autres pays de
l’Europe occidentale. Robert Mandrou, dans son œuvre De la culture populaire aux XVIIe et XVIIIe
siècles, La
Bibliothèque bleue de Troyes (Paris : Stock,
1964) : fournit le meilleur résumé de leur intérêt pour la recherche quand
il écrit « La bibliothèque de colportage représente certainement la
meilleure information d’ensemble, dont l’historien puisse disposer à l’heure
actuelle, pour reconstituer la culture populaire française sous l’Ancien
Régime. » (p. 17)
Vu l’importance de ces œuvres dans le
patrimoine de la ville de Troyes, la collection de la Médiathèque de
l’agglomération Troyenne (MAT) conserve le plus important fonds de ces livrets
en France, quelques 2900 volumes. Une priorité dans leur charte d’acquisition, avec
la participation de la BnF et la bibliothèque du Musée des
civilisations de l’Europe et de la Méditerranée, la MAT a construit un catalogue collectif des livres
de colportage, et a également numérisé, sous forme image, les œuvres de la Bibliothèque
bleue dans sa collection. De ces 2900 livres de colportage dans le fonds de la MAT, tous ceux qui furent
publiés à Troyes, environ 690, étaient déjà numérisés et accessibles dans le rubrique « Bibliothèque virtuelle » de son site
web avant que CIFNAL approche la Médiathèque avec son idée de projet collaboratif.
Dès ses débuts, CIFNAL identifie les
projets numériques comme particulièrement bien adapté à ses objectifs de
coopération et de partage de ressources. À l’été 2005, l’organisme a invité des
responsables de la bibliothèque numérique ARTFL, basée à l’Université de
Chicago, à faire une session de remue-méninges. Ensemble, nous avons identifié
plusieurs fonds qui pourraient être valorisés par les connaissances techniques
et logiciels de ARTFL. Celles-ci comprennent la numérisation, le traitement et
reconnaissance des textes, et le chargement des données dans la base de données
d’ARTFL. Cette base de données est munie d’un moteur de recherche extrêmement
puissant – PhiloLogic - qui a été développé pour
pourvoir aux besoins d’analyse de l’Encyclopédie de Diderot et
d’Alembert. La
Bibliothèque bleue, dont on Vu qu’un grand nombre d’images
avaient déjà été numérisées par la
MAT, nous semblait un excellent candidat pour un premier
projet. C’est un fonds bien défini, qui suscite un intérêt parmi les chercheurs
dans plusieurs domaines, et qui est riche en texte et en images. Son inclusion
dans la famille de bases de données d’ARTFL en facilitera l’accès par le grand
public. En outre, la
Bibliothèque bleue pourra être analysée avec les techniques
de pointe d’ARTFL, grâce à PhiloLogic.
Après avoir identifié le fonds de la Bibliothèque
bleue comme candidat pour notre premier projet numérique, un de nos membres,
qui avait été stagiaire à la MAT,
a adressé une lettre, écrite par l’équipe de CIFNAL, à son directeur, M.
Thierry Delcourt. Après une présentation de CIFNAL et ARTFL, la lettre décrit le
projet – la création d’une base de données de la Bibliothèque
bleue à partir des fichiers déjà numérisés de la MAT. Ensuite, elle
aborde les raisons pour lesquelles le projet proposé serait désirable pour la MAT, pour ARTFL, pour CIFNAL,
et pour les chercheurs, surtout ceux à l’extérieur de France.
Les deux raisons principales données pour
ce projet sont:
-
la
richesse du corpus de la
Bibliothèque bleue comme source de recherche sur la culture
populaire et rurale du 17e au milieu du 19e siècle ;
-
l’amélioration
d’accès à ce corpus– il s’agit d’un genre de livre qui n’était conçu que comme
objet éphémère. Maintenant ses exemplaires sont dispersés dans des
bibliothèques et collections privées et hors la portée des chercheurs, surtout
quand il s’agit d’un corpus plutôt que quelques livrets. Grâce à la centralité
de la ville de Troyes dans l’histoire de ce genre, et aux efforts de
collectionneurs du 19e siècle, qui ont fait don de leurs collections,
la MAT contient
plus de 2900 exemplaires d’œuvres dits « Bibliothèque bleue ».
Dans sa correspondance initiale, CIFNAL, sur
les conseils d'ARTFL, propose de prendre les images numériques des livrets de la MAT, et ensuite de capter les
textes en les faisant saisir manuellement par clavier. La prochaine étape est
d’encoder les textes suivant les spécifications du protocole TEI-Lite. Cet
encodage TEI-Lite permet non seulement des recherches simples dans les textes,
mais toute une gamme de recherches raffinées. Les données encodées sont ensuite
chargées dans le logiciel en code source ouvert (open source) de ARTFL, PhiloLogic, qui comprend
et une interface d’utilisateur, et un moteur de recherche. De cette plateforme,
le chercheur serait donc capable d’effectuer des recherches analytiques.
Pour Thierry Delcourt, directeur de la MAT (et maintenant directeur
du département des manuscrits à la
BnF), les raisons d’enrichir la
numérisation des livrets de la BB
étaient claires. Dès les premières communications, il nous a fait savoir que la
numérisation déjà entretenue par son institution faisait partie d’un plus grand
projet de catalogage avec la BnF et le Musée des Arts et traditions
populaires – en partie dans le cadre du pôle « Colportage » de la BnF,
et en partie avec quelques programmes menés du Ministère de la Culture, les Archives
départementales de l’Aube, et l’Institut de Recherche et d’Histoire des textes.
Il envisageait aussi d’étendre ce travail de repérage aux autres bibliothèques
municipales et il nous a invité à complémenter leurs
efforts. Au moment où nous avons pris contact, le MAT avait déjà numérisé
intégralement quelque 400 livrets, surtout ceux du 19e siècle, qui
était souvent des rééditions des œuvres parues dans les 17e et 18e
siècles.
Après avoir accueilli notre projet, M.
Delcourt pose quelques questions techniques. En répondant à nos plans de saisir
les textes manuellement au clavier, en important le travail à une société
spécialisée, il propose d’essayer aussi des outils de transcription
automatique, comme OCR (la reconnaissance de caractères), dans l’intérêt
d’efficacité en temps et budget. La
MAT travaille déjà avec des groupes de reconnaissance de
textes et d’écritures anciennes avec des résultats positifs, et il pense que le
projet collaboratif sera une bonne occasion aussi pour nous de faire des liens
avec des organismes de recherche universitaires français. Il suggère aussi l’addition
de métadonnées sur les aspects physiques des livrets, y compris des images,
avec l’objectif d’étudier la structure des œuvres en tant que textes (avec PhiloLogic) et en tant qu’objets imprimés.
La réponse de M. Delcourt fut très bien
accueillie par CIFNAL et ARTFL, surtout parce que nous voyions que nous pouvions
avoir un apport très positif sur le
projet dans son ensemble, particulièrement en ce qui concerne l’accès aux
textes. Notre réponse révèle que, bien que ouvert à l’idée d’un test d’OCR, les
expériences de ARTFL montrent que pour les documents
anciens, d’un test de reconnaissance de caractères, qu’elle soit « fait
maison » ou par un contracteur, est plus chère
et moins efficace que la saisie manuelle par clavier. Pour assurer que le markup TEI et les métadonnées sont uniformes, il faut que
ARTFL et la MAT,
avec les conseils des membres de CIFNAL, composent ensemble des spécifications
et des termes unifiés. De plus, nous nous entendons pour ajouter des métadonnées
pour les aspects physiques, une façon de complémenter les capacités améliorées de
recherche textuelle.
Une fois que toutes les parties sont
d’accord, le projet avance rapidement, commençant par le transfert des fichiers
des images des livrets de la MAT
à ARTFL. Ensuite ces fichiers sont envoyés directement à la société de saisie
par clavier. Initialement, M. Delcourt propose que CIFNAL fasse le choix d’une
sélection de titres déjà numérisés sur leur site web. Muni de cette liste des
titres, la MAT
peut ensuite envoyer un CD-ROM de fichiers .tif. En fait, quand Mark Olsen and
Robert Morrissey de ARTFL vont à Troyes au début de 2006, M. Delcourt leur
fournit un CD-ROM contenant des fichiers images de quelques 300 textes, environ
la moitié de la collection en entier. Ils les ramènent à Chicago, d’où la
plupart sont envoyés au vendeur pour la saisie, les autres n’ayant pas une
résolution suffisante pour pouvoir être lu facilement, surtout par des employés
qui ne parlent pas le français. La société fait son travail et renvoie les
fichiers à ARTFL, qui construit un site web où le public peut effectuer la
recherche sur la
Bibliothèque bleue avec le moteur de recherche PhiloLogic.
La communication de ce projet prend
plusieurs formes et les contacts sont à plusieurs niveaux. La plupart des
correspondances passent par courriel, surtout initialement, mais c’est par
téléphone que les contours précis du projet sont discutés. Comme représentante de
CIFNAL, et donc un liaison, j’ai parlé avec M.
Delcourt et aussi avec Robert Morrissey et Mark Olsen
de ARTFL. Pour des détails techniques et contractuels, M. Delcourt a parlé directement
avec Morrissey et Olsen. Finalement, au début de
2006, Robert Morrissey et Mark Olsen ont rendu visite
à la MAT. Au
cours de cette visite, M. Delcourt leur donne un CD-ROM avec les fichiers image
de tous les livrets numérisés et ils parlent de l’accord sur les droits et le
partage des données. Glenn Roe, développeur technique
de ARTFL, communique avec l’informaticien à la MAT. J’envoie des nouvelles
sur le projet régulièrement aux membres de CIFNAL, et demande leurs conseils à
toutes les étapes. Nous discutons le projet aussi lors de nos réunions au
congrès de ALA (American Library Association). Les
communications entre toutes les parties sont constantes et régulières pendant
le travail de base.
Le financement demeure un des deux bémols
du projet. Nous n’avons pas encore parlé de budget ou du financement du projet.
CIFNAL a commencé ce projet avant même que les logistiques d’abonnement et de
budget pour CIFNAL soient décidées. Le problème est qu’il faut proposer des
projets pour attirer des membres, et il faut avoir des membres pour
subventionner des projets. Pour mettre un peu de pression sur le projet, ARTFL
fait un don de $10,000 pour soutenir la saisie par clavier d’un échantillon de
textes, et l’encoder d’après la spécification TEI acceptée par toute l’équipe.
En fait, ce $10,000 est le seul argent que nous avons mis dans l’avancement du
projet Bibliothèque bleue (et nous en remercions vivement ARTFL !). Ce
montant paye pour la saisie double par clavier et le traitement initial de
TEI-Lite de 110 livrets de la Bibliothèque bleue par une société en Inde. Mais
le don généreux de ARTFL ne suffit pas pour la saisie
et traitement de tous les textes. De plus, même avec la saisie manuelle double,
des erreurs persistent. Une signe de dollar ($) remplace des lettres que les
travailleurs ne peuvent pas identifier – soit à cause de la mauvaise qualité de
l’imprimerie initiale – état normal pour la Bibliothèque
bleue – soit à cause de la qualité et la résolution de la numérisation. Les
membres de CIFNAL proposent de faire des corrections utilisant un modèle du
travail distribué, mais des contraintes de temps et d’organisation font que
cette idée tombe à l’eau. En fait, c’est encore grâce à ARTFL et à ses
ressources que les corrections continuent : il engage des étudiants pour
faire la correction ; il y a même une doctorante française travaille à
distance, de Paris ! En mai 2008, 86 des 116 textes ont été corrigées. Sans
financement supplémentaire, un autre aspect du projet comme il était envisagé ne
sera pas réalisé – l’ajout des éléments visuels comme les planches et gravures à
la base de données.
L’autre problème du projet est lié à la
mobilité et structure de postes de fonctionnaires dans le domaine culturel en
France. En 2007, M.
Delcourt laisse son poste à la MAT
pour devenir chef du département des manuscrits à la Bibliothèque
nationale de France. Bien que de notre coté, plusieurs bibliothécaires et
chercheurs à ARTFL et à CIFNAL travaillant sur le projet de la Bibliothèque
bleue numérique, étaient en contact avec M. Delcourt, nous n’avons pas de liens
durables de communication avec ses collègues. Maintenant qu’il est parti,
l’équipe CIFNAL/ARTFL n’a plus de contacts avec la MAT. Cette rupture est
évidente dans l’absence des signes du projet collaboratif sur le site web de la MAT. Les livrets de la Bibliothèque
bleue sont sur leur site sous forme numérique, mais il n’y a pas de lien vers
le site en libre accès de la BB
hébergé par ARTFL, ni mention de la possibilité de faire de la recherche
textuelles dans le corpus. Sur le site web de la MAT, les chercheurs ne peuvent pas effectuer la
recherche sophistiquée dans les textes de la Bibliothèque
bleue. Ils peuvent seulement chercher par l’information bibliographique dans le
catalogue collectif, et par les mêmes champs dans la rubrique « livres
numérisés » dans les collections numérisées sur le site web. Néanmoins,
les sites web d’ARTFL et de CIFNAL donnent crédit à la MAT comme partenaire et comme
source des données.
Où est-ce qu’on va maintenant et qu’est-ce
qu’on a appris du projet Bibliothèque bleue?
Au présent, le projet contient les textes et les
images des pages de 116 livrets de la Bibliothèque
bleue. Les erreurs dans la version texte de 86 de ces livrets ont été corrigées
à la main. Grace au logiciel PhiloLogic, les
chercheurs peuvent faire des recherches des mots ou des phrases dans tout le
corpus, ou dans un seul livret. Ils peuvent aussi basculer entre les textes et
les images des pages. Au niveau des mots, pour chaque livret les chercheurs
peuvent voir le chiffre total des mots ou une liste de mots arrangés par
fréquence, et il y a même un dictionnaire intégré.
Toutefois, il manque deux choses pour que le
projet soit pleinement achevé. Premièrement, il a besoin d’argent. Même si la
levée de fonds pour faciliter des projets collaboratifs reste un objectif pour
CIFNAL, jusqu’à maintenant c’est un objectif pas encore réalisé. L’argent
supplémentaire payera pour l’incorporation des gravures dans le texte, pour
toutes les corrections, et, éventuellement, pour l’addition de plus de textes
dans le corpus. ARTFL a même laissé des « trous » dans la programmation
pour ajouter les informations sur les gravures.
Deuxièmement, nous avons appris qu’il faut
construire des liens plus durables et à plusieurs niveaux entre les différents
organismes impliqués. Nos contactes avec la MAT se sont terminés au moment où son directeur
partait. ARTFL et la MAT
ont fait un accord dans lequel CIFNAL participait comme partenaire d’ARTFL.
D’après cette entente, ARTFL donne à la
MAT les fichiers textes des livrets de la Bibliothèque
bleue encodés avec TEI, et l’aide à implémenter un site web avec PhiloLogic, s’il le désire. Mais une entente dépend sur
l’intérêt et la communication continus de toutes les parties composantes. Il
n’y a pas d’intérêt actuel de la part de la MAT d’incorporer sur son site web ni les fichiers
textes ni l’interface et moteur de recherche PhiloLogic,
et donc le projet réside seulement sur le site ARTFL, d’où il est disponible au
grand public.
Néanmoins, nous considérons le projet comme une
réussite. Les résultats sont largement réussis, et nous avons appris beaucoup
sur comment initier et développer un projet en équipe. CIFNAL espère que dans
l’avenir les liens seront réanimés entre les trois participants, pour
l’avantage des chercheurs partout, et surtout, que nous pouvons utiliser nos
nouvelles connaissances pour réaliser d’autres projets et créer d’autres liens
dans le monde des bibliothèques francophones.