Le premier projet de l’Initiative de collaboration entre les bibliothèques françaises et nord-américaines (ICBFN)/Collaborative Initiative for French and North-American Libraries (CIFNAL) est une collaboration entre trois organismes[1]: CIFNAL; ARTFL; et la Médiathèque de l’agglomération Troyenne. Le projet comprend trois volets: la numérisation, le traitement et reconnaissance des textes, et l’inclusion dans la base de données d’ARTFL d’un corpus d’œuvres de la Bibliothèque bleue de Troyes.  Dans cette communication, je parlerai de la conception du projet, du développement des liens entre CIFNAL, ARTFL, et la Médiathèque, et des résultats obtenus jusqu'à présent. 

 

Un objectif clé de CIFNAL est la création des liens entre des bibliothèques francophones du monde entier, et en particulier, entre les bibliothèques nord-américaines et leurs homologues dans le monde francophone.  Dans ce contexte, nous essayons de faciliter le partage des ressources entre les bibliothèques qui ont des fonds en langue française. Les concepts de ressource et de partage doivent être considérés dans le sens large : la promotion des liens entre les institutions et organismes, la diffusion du contenu des collections et des sujets de recherche par la création d’inventaires et catalogues de collections, l’aide au demande d’emprunt de documents rares entre les bibliothèques, et le travail en collaboration sur la création des nouveaux fonds numériques. Le projet de la Bibliothèque bleue de Troyes répond à tous ces objectifs.

 

La Bibliothèque bleue est le nom donné aux petits livrets vendus par des colporteurs entre les 17e et 19e siècles. Leur nom vient de la couleur du papier habituellement utilisé pour leurs couvertures, le même papier bleu servait pour emballer les pains de sucre. Ils étaient des petits in-12 ou même plus petits, imprimés sur un papier de mauvaise qualité, mal brochés, mais avec quelques avantages. Ils coutaient seulement quelques sous, et donc étaient accessible à presque tous, et leur diffusion était assurée par des colporteurs qui s’approvisionnaient à Troyes avant de partir sur leurs chemins de ventes (d’où le terme «livres de colportage »). Destinés aux classes populaires, les livrets contiennent des versions simplifiées d’histoires populaires, de chansons, de livres religieux, et des recueils d’informations pratiques. En France, ils étaient le produit des presses dans plusieurs villes provinciales et en particulier à Troyes. En fait, le genre est né dans cette ville au début du 17e siècle par l’imprimeur-libraire Nicolas Oudot, dont l’invention eu un tel succès que le format fut rapidement imité par des libraires dans autres villes provinciales, et même dans d’autres pays de l’Europe occidentale. Robert Mandrou, dans son œuvre De la culture populaire aux XVIIe et XVIIIe siècles, La Bibliothèque bleue de Troyes (Paris : Stock, 1964) : fournit le meilleur résumé de leur intérêt pour la recherche quand il écrit « La bibliothèque de colportage représente certainement la meilleure information d’ensemble, dont l’historien puisse disposer à l’heure actuelle, pour reconstituer la culture populaire française sous l’Ancien Régime. »  (p. 17)

 

Vu l’importance de ces œuvres dans le patrimoine de la ville de Troyes, la collection de la Médiathèque de l’agglomération Troyenne (MAT) conserve le plus important fonds de ces livrets en France, quelques 2900 volumes. Une priorité dans leur charte d’acquisition, avec la participation de la BnF et la bibliothèque du Musée des civilisations de l’Europe et de la Méditerranée, la MAT a construit un catalogue collectif des livres de colportage, et a également numérisé, sous forme image, les œuvres de la Bibliothèque bleue dans sa collection. De ces 2900 livres de colportage dans le fonds de la MAT, tous ceux qui furent publiés à Troyes, environ 690, étaient déjà numérisés et accessibles dans le rubrique « Bibliothèque virtuelle » de son site web avant que CIFNAL approche la Médiathèque avec son idée de projet collaboratif.

 

Dès ses débuts, CIFNAL identifie les projets numériques comme particulièrement bien adapté à ses objectifs de coopération et de partage de ressources. À l’été 2005, l’organisme a invité des responsables de la bibliothèque numérique ARTFL, basée à l’Université de Chicago, à faire une session de remue-méninges. Ensemble, nous avons identifié plusieurs fonds qui pourraient être valorisés par les connaissances techniques et logiciels de ARTFL. Celles-ci comprennent  la numérisation, le traitement et reconnaissance des textes, et le chargement des données dans la base de données d’ARTFL. Cette base de données est munie d’un moteur de recherche extrêmement puissant – PhiloLogic - qui a été développé pour pourvoir aux besoins d’analyse de l’Encyclopédie de Diderot et d’Alembert. La Bibliothèque bleue, dont on Vu qu’un grand nombre d’images avaient déjà été numérisées par la MAT, nous semblait un excellent candidat pour un premier projet. C’est un fonds bien défini, qui suscite un intérêt parmi les chercheurs dans plusieurs domaines, et qui est riche en texte et en images. Son inclusion dans la famille de bases de données d’ARTFL en facilitera l’accès par le grand public. En outre, la Bibliothèque bleue pourra être analysée avec les techniques de pointe d’ARTFL, grâce à PhiloLogic.

 

Après avoir identifié le fonds de la Bibliothèque bleue comme candidat pour notre premier projet numérique, un de nos membres, qui avait été stagiaire à la MAT, a adressé une lettre, écrite par l’équipe de CIFNAL, à son directeur, M. Thierry Delcourt. Après une présentation de CIFNAL et ARTFL, la lettre décrit le projet – la création d’une base de données de la Bibliothèque bleue à partir des fichiers déjà numérisés de la MAT. Ensuite, elle aborde les raisons pour lesquelles le projet proposé serait désirable pour la MAT, pour ARTFL, pour CIFNAL, et pour les chercheurs, surtout ceux à l’extérieur de France.

 

Les deux raisons principales données pour ce projet sont:

-          la richesse du corpus de la Bibliothèque bleue comme source de recherche sur la culture populaire et rurale du 17e au milieu du 19e siècle ;

-          l’amélioration d’accès à ce corpus– il s’agit d’un genre de livre qui n’était conçu que comme objet éphémère. Maintenant ses exemplaires sont dispersés dans des bibliothèques et collections privées et hors la portée des chercheurs, surtout quand il s’agit d’un corpus plutôt que quelques livrets. Grâce à la centralité de la ville de Troyes dans l’histoire de ce genre, et aux efforts de collectionneurs du 19e siècle, qui ont fait don de leurs collections, la MAT contient plus de 2900 exemplaires d’œuvres dits « Bibliothèque bleue ».

 

Dans sa correspondance initiale, CIFNAL, sur les conseils d'ARTFL, propose de prendre les images numériques des livrets de la MAT, et ensuite de capter les textes en les faisant saisir manuellement par clavier. La prochaine étape est d’encoder les textes suivant les spécifications du protocole TEI-Lite. Cet encodage TEI-Lite permet non seulement des recherches simples dans les textes, mais toute une gamme de recherches raffinées. Les données encodées sont ensuite chargées dans le logiciel en code source ouvert (open source) de ARTFL, PhiloLogic, qui comprend et une interface d’utilisateur, et un moteur de recherche. De cette plateforme, le chercheur serait donc capable d’effectuer des recherches analytiques.

 

Pour Thierry Delcourt, directeur de la MAT (et maintenant directeur du département des manuscrits à la BnF), les raisons d’enrichir la numérisation des livrets de la BB étaient claires. Dès les premières communications, il nous a fait savoir que la numérisation déjà entretenue par son institution faisait partie d’un plus grand projet de catalogage avec la BnF et le Musée des Arts et traditions populaires – en partie dans le cadre du pôle « Colportage » de la BnF, et en partie avec quelques programmes menés du Ministère de la Culture, les Archives départementales de l’Aube, et l’Institut de Recherche et d’Histoire des textes. Il envisageait aussi d’étendre ce travail de repérage aux autres bibliothèques municipales et il nous a invité à complémenter leurs efforts. Au moment où nous avons pris contact, le MAT avait déjà numérisé intégralement quelque 400 livrets, surtout ceux du 19e siècle, qui était souvent des rééditions des œuvres parues dans les 17e et 18e siècles.

 

Après avoir accueilli notre projet, M. Delcourt pose quelques questions techniques. En répondant à nos plans de saisir les textes manuellement au clavier, en important le travail à une société spécialisée, il propose d’essayer aussi des outils de transcription automatique, comme OCR (la reconnaissance de caractères), dans l’intérêt d’efficacité en temps et budget. La MAT travaille déjà avec des groupes de reconnaissance de textes et d’écritures anciennes avec des résultats positifs, et il pense que le projet collaboratif sera une bonne occasion aussi pour nous de faire des liens avec des organismes de recherche universitaires français. Il suggère aussi l’addition de métadonnées sur les aspects physiques des livrets, y compris des images, avec l’objectif d’étudier la structure des œuvres en tant que textes (avec PhiloLogic) et en tant qu’objets imprimés.

 

La réponse de M. Delcourt fut très bien accueillie par CIFNAL et ARTFL, surtout parce que nous voyions que nous pouvions avoir un apport très positif  sur le projet dans son ensemble, particulièrement en ce qui concerne l’accès aux textes. Notre réponse révèle que, bien que ouvert à l’idée d’un test d’OCR, les expériences de ARTFL montrent que pour les documents anciens, d’un test de reconnaissance de caractères, qu’elle soit « fait maison » ou par un contracteur, est plus chère et moins efficace que la saisie manuelle par clavier. Pour assurer que le markup TEI et les métadonnées sont uniformes, il faut que ARTFL et la MAT, avec les conseils des membres de CIFNAL, composent ensemble des spécifications et des termes unifiés. De plus, nous nous entendons pour ajouter des métadonnées pour les aspects physiques, une façon de complémenter les capacités améliorées de recherche textuelle.

 

Une fois que toutes les parties sont d’accord, le projet avance rapidement, commençant par le transfert des fichiers des images des livrets de la MAT à ARTFL. Ensuite ces fichiers sont envoyés directement à la société de saisie par clavier. Initialement, M. Delcourt propose que CIFNAL fasse le choix d’une sélection de titres déjà numérisés sur leur site web. Muni de cette liste des titres, la MAT peut ensuite envoyer un CD-ROM de fichiers .tif. En fait, quand Mark Olsen and Robert Morrissey de ARTFL vont à Troyes au début de 2006, M. Delcourt leur fournit un CD-ROM contenant des fichiers images de quelques 300 textes, environ la moitié de la collection en entier. Ils les ramènent à Chicago, d’où la plupart sont envoyés au vendeur pour la saisie, les autres n’ayant pas une résolution suffisante pour pouvoir être lu facilement, surtout par des employés qui ne parlent pas le français. La société fait son travail et renvoie les fichiers à ARTFL, qui construit un site web où le public peut effectuer la recherche sur la Bibliothèque bleue avec le moteur de recherche PhiloLogic.

 

La communication de ce projet prend plusieurs formes et les contacts sont à plusieurs niveaux. La plupart des correspondances passent par courriel, surtout initialement, mais c’est par téléphone que les contours précis du projet sont discutés. Comme représentante de CIFNAL, et donc un liaison, j’ai parlé avec M. Delcourt et aussi avec Robert Morrissey et Mark Olsen de ARTFL. Pour des détails techniques et contractuels, M. Delcourt a parlé directement avec Morrissey et Olsen. Finalement, au début de 2006, Robert Morrissey et Mark Olsen ont rendu visite à la MAT. Au cours de cette visite, M. Delcourt leur donne un CD-ROM avec les fichiers image de tous les livrets numérisés et ils parlent de l’accord sur les droits et le partage des données. Glenn Roe, développeur technique de ARTFL, communique avec l’informaticien à la MAT. J’envoie des nouvelles sur le projet régulièrement aux membres de CIFNAL, et demande leurs conseils à toutes les étapes. Nous discutons le projet aussi lors de nos réunions au congrès de ALA (American Library Association). Les communications entre toutes les parties sont constantes et régulières pendant le travail de base.

 

Le financement demeure un des deux bémols du projet. Nous n’avons pas encore parlé de budget ou du financement du projet. CIFNAL a commencé ce projet avant même que les logistiques d’abonnement et de budget pour CIFNAL soient décidées. Le problème est qu’il faut proposer des projets pour attirer des membres, et il faut avoir des membres pour subventionner des projets. Pour mettre un peu de pression sur le projet, ARTFL fait un don de $10,000 pour soutenir la saisie par clavier d’un échantillon de textes, et l’encoder d’après la spécification TEI acceptée par toute l’équipe. En fait, ce $10,000 est le seul argent que nous avons mis dans l’avancement du projet Bibliothèque bleue (et nous en remercions vivement ARTFL !). Ce montant paye pour la saisie double par clavier et le traitement initial de TEI-Lite de 110 livrets de la Bibliothèque bleue par une société en Inde. Mais le don généreux de ARTFL ne suffit pas pour la saisie et traitement de tous les textes. De plus, même avec la saisie manuelle double, des erreurs persistent. Une signe de dollar ($) remplace des lettres que les travailleurs ne peuvent pas identifier – soit à cause de la mauvaise qualité de l’imprimerie initiale – état normal pour la Bibliothèque bleue – soit à cause de la qualité et la résolution de la numérisation. Les membres de CIFNAL proposent de faire des corrections utilisant un modèle du travail distribué, mais des contraintes de temps et d’organisation font que cette idée tombe à l’eau. En fait, c’est encore grâce à ARTFL et à ses ressources que les corrections continuent : il engage des étudiants pour faire la correction ; il y a même une doctorante française travaille à distance, de Paris ! En mai 2008, 86 des 116 textes ont été corrigées. Sans financement supplémentaire, un autre aspect du projet comme il était envisagé ne sera pas réalisé – l’ajout des éléments visuels comme les planches et gravures à la base de données.

 

L’autre problème du projet est lié à la mobilité et structure de postes de fonctionnaires dans le domaine culturel en France. En 2007, M. Delcourt laisse son poste à la MAT pour devenir chef du département des manuscrits à la Bibliothèque nationale de France. Bien que de notre coté, plusieurs bibliothécaires et chercheurs à ARTFL et à CIFNAL travaillant sur le projet de la Bibliothèque bleue numérique, étaient en contact avec M. Delcourt, nous n’avons pas de liens durables de communication avec ses collègues. Maintenant qu’il est parti, l’équipe CIFNAL/ARTFL n’a plus de contacts avec la MAT. Cette rupture est évidente dans l’absence des signes du projet collaboratif sur le site web de la MAT. Les livrets de la Bibliothèque bleue sont sur leur site sous forme numérique, mais il n’y a pas de lien vers le site en libre accès de la BB hébergé par ARTFL, ni mention de la possibilité de faire de la recherche textuelles dans le corpus. Sur le site web de la MAT, les chercheurs ne peuvent pas effectuer la recherche sophistiquée dans les textes de la Bibliothèque bleue. Ils peuvent seulement chercher par l’information bibliographique dans le catalogue collectif, et par les mêmes champs dans la rubrique « livres numérisés » dans les collections numérisées sur le site web. Néanmoins, les sites web d’ARTFL et de CIFNAL donnent crédit à la MAT comme partenaire et comme source des données.

 

Où est-ce qu’on va maintenant et qu’est-ce qu’on a appris du projet Bibliothèque bleue?

Au présent, le projet contient les textes et les images des pages de 116 livrets de la Bibliothèque bleue. Les erreurs dans la version texte de 86 de ces livrets ont été corrigées à la main. Grace au logiciel PhiloLogic, les chercheurs peuvent faire des recherches des mots ou des phrases dans tout le corpus, ou dans un seul livret. Ils peuvent aussi basculer entre les textes et les images des pages. Au niveau des mots, pour chaque livret les chercheurs peuvent voir le chiffre total des mots ou une liste de mots arrangés par fréquence, et il y a même un dictionnaire intégré.   

 

Toutefois, il manque deux choses pour que le projet soit pleinement achevé. Premièrement, il a besoin d’argent. Même si la levée de fonds pour faciliter des projets collaboratifs reste un objectif pour CIFNAL, jusqu’à maintenant c’est un objectif pas encore réalisé. L’argent supplémentaire payera pour l’incorporation des gravures dans le texte, pour toutes les corrections, et, éventuellement, pour l’addition de plus de textes dans le corpus. ARTFL a même laissé des « trous » dans la programmation pour ajouter les informations sur les gravures.

 

Deuxièmement, nous avons appris qu’il faut construire des liens plus durables et à plusieurs niveaux entre les différents organismes impliqués. Nos contactes avec la MAT se sont terminés au moment où son directeur partait. ARTFL et la MAT ont fait un accord dans lequel CIFNAL participait comme partenaire d’ARTFL. D’après cette entente, ARTFL donne à la MAT les fichiers textes des livrets de la Bibliothèque bleue encodés avec TEI, et l’aide à implémenter un site web avec PhiloLogic, s’il le désire. Mais une entente dépend sur l’intérêt et la communication continus de toutes les parties composantes. Il n’y a pas d’intérêt actuel de la part de la MAT d’incorporer sur son site web ni les fichiers textes ni l’interface et moteur de recherche PhiloLogic, et donc le projet réside seulement sur le site ARTFL, d’où il est disponible au grand public.

 

Néanmoins, nous considérons le projet comme une réussite. Les résultats sont largement réussis, et nous avons appris beaucoup sur comment initier et développer un projet en équipe. CIFNAL espère que dans l’avenir les liens seront réanimés entre les trois participants, pour l’avantage des chercheurs partout, et surtout, que nous pouvons utiliser nos nouvelles connaissances pour réaliser d’autres projets et créer d’autres liens dans le monde des bibliothèques francophones.

 

 



[1] J’utilise ici l’acronyme de CIFNAL parce qu’il est plus facile à prononcer.