Nénufar (pour Nouvelle édition numérique de fac-similés de référence) vise à publier l’intégralité des premières éditions du Petit Larousse illustré constituant ainsi un nouveau corpus à destination des scientifiques (linguistes, historiens, sociologues…) et du grand public pour améliorer la connaissance et favoriser l’étude de l’histoire et des évolutions récentes de la langue, de la culture, des techniques. Ce site web permet l’interrogation en mode simple ou avancé mais les chercheurs pourront prochainement obtenir les données au format XML/TEI pour une utilisation experte, au fur et à mesure de leur disponibilité. Ce projet n’aurait pu se concrétiser sans le soutien de la Délégation générale à la langue française et aux langues de France et des consortiums Cahier et Corli de la TGIR Huma-Num que nous tenons à remercier chaleureusement.
À l’origine
L’acronyme du projet est un clin d’œil à l’orthographe de cette plante aquatique aux larges feuilles et aux grosses fleurs solitaires, telle que recommandée par les Rectifications orthographiques de 1990. Des graphies comme nénufar ou ognon sont souvent citées par leurs détracteurs comme des exemples de dénaturation de la langue qu’elles représenteraient. Pourtant, on peut les trouver dans les premières éditions du Petit Larousse illustré, il n’y a donc pas si longtemps. Absentes des dictionnaires courants depuis plus de 60 ans, ces graphies ont été oubliées, au point de paraître choquantes à certains aujourd’hui.
Le Petit Larousse illustré
La première édition paraît le 29 juillet 1905 et porte le millésime 1906. Ce décalage perdure aujourd’hui, l’édition 2021 est parue le 3 juin 2020. La réputation des dictionnaires Larousse est établie depuis le Nouveau dictionnaire de la langue française (1856) et surtout le Grand dictionnaire universel du XIXe s. (15 volumes, 1865-1876) de Pierre Larousse (1817-1875), dont l’œuvre a été poursuivie sous la direction de Claude Augé (1854-1924) qui publiera le Dictionnaire complet illustré (1889) et le Nouveau Larousse illustré (7 volumes, 1897-1904). Le prix de ce Petit Larousse illustré est abordable, le format est maniable et son succès est immédiat. D’après Cormier (2005), deux cent mille exemplaires sont vendus en un an, six cent mille en cinq ans. Plusieurs centaines de milliers d’exemplaires sont encore vendus chaque année. En France, on pourrait probablement trouver un Petit Larousse illustré dans la quasi-totalité des foyers.
De rares ressources numériques
Malgré cette diffusion et le fait que les éditions publiées il y a plus de soixante-dix ans sont maintenant dans le domaine public, seulement le 5e tirage (1906) sur Google Books et le 185e tirage (1922) sur Gallica sont disponibles, qui plus est, en mode image et en basse résolution. La numérisation de la partie langue du Petit Larousse illustré 1905, avait été entreprise par le laboratoire Lexiques, dictionnaires et informatique (LDI), sous la direction de Jean Pruvost en 2004 et publiée en 2009 (Manuélian, 2006, 2009) marquant une première importante. Malheureusement, ce projet n’a pas été maintenu et son site web n’est plus opérationnel.
Ce projet se devait d’être relancé, avec de nouvelles numérisations, et complété avec des données inédites en mode texte : les éditions suivantes libres de droit, les fameuses pages roses de citations latines et étrangères, la partie noms propres. L’interface d’interrogation permet au lecteur de consulter le document original et l’encodage du texte correspondant, l’invitant ainsi à nous signaler d’éventuelles erreurs. Les formes dérivées (flexions et conjugaisons) ainsi que les prononciations (à titre expérimental) sont également données. D’autre part, les formats de données utilisés (XML TEI, TEI-Lex0 et Ontolex-Lemon RDF pour l’exploitation des données dans le web sémantique sont ouverts et les données elles-mêmes seront disponibles.
Éditions consultées
Chaque édition du Petit Larousse illustré est identifiée par son millésime suivi d’un numéro de tirage (sur 3 chiffres), la première édition est donc notée 1906-001. Les autres éditions de notre corpus sont : 1906-003, 1906-005, 1906-007, 1907-020, 1908-032, 1909-040, 1910-050, 1911-062, 1912-075, 1913-095, 1914-097, 1915-115, 1916-123, 1917-140, 1918-149, 1919-162, 1920-170, 1921-177, 1922-183, 1923-208, 1924-227, 1925-015, 1926-033, 1927-055, 1928-075, 1929-084, 1930-104, 1931-120, 1932-130, 1933-149, 1934-175, 1935-200, 1936-230, 1937-270, 1938-280, 1939-290, 1940-310, 1941-350, 1942-350, 1943-368, 1944-377, 1945-377, 1946-400, 1947-423 et 1948-000.
Une nouvelle entrée ou une modification indiquée « 1912-075 » peut donc avoir eu lieu entre les éditions 1911-063 et 1912-075. Un numéro de tirage inconnu pour un millésime donné est indiqué « 000 ». Les datations pourront être affinées par la suite avec la consultation de nouvelles éditions intermédiaires.
Le millésime 1925 (paru en 1924) marque une refonte complète de l’ouvrage, qui est renommé Nouveau Petit Larousse illustré. Le numéro d’édition est réinitialisé. La première édition dont nous disposons est la 1925-015, les tirages se suivront ainsi jusqu’à l’édition 1947-423. Le millésime 1948 présente une nouvelle refonte. Le projet Nénufar vise la mise en ligne de toutes les éditions jusqu’à la refonte de 1948, ce qui s’échelonnera jusqu’en 2021. De nouvelles éditions seront ajoutées par la suite au fur et mesure de leur entrée dans le domaine public.
Méthodologie
- Numérisation et reconnaissance optique des caractères des millésimes-clés : première édition (1906), septième édition (1906), éditions précédant et suivant les refontes de 1924 et 1948.
- Comparaison des textes permettant une détection fine des changements et des erreurs de reconnaissance de caractères.
- Datation annuelle des changements par consultation des éditions intermédiaires dont nous possédons tous les millésimes.
- Intégration dans une base de données unique de toutes les éditions et première analyse des champs (entrées, types grammaticaux, étymologies, définitions, renvois, sous-entrées, etc.).
- Balisage/rebalisage du texte en XML selon les standards de la Text Encoding Initiative (TEI).
- Développement de l’interface d’interrogation et publication web.
Quelques données chiffrées
La première édition du Petit Larousse illustré (1906-001) compte d’après nous 44876 entrées (la numérisation du laboratoire LDI en annonçait 44819) et 2532 illustrations (2343 pour LDI mais les méthodes de comptage peuvent être différentes). La partie langue représente 1066 pages pour environ 1,06 million de mots.
Il y a relativement peu de changements dans la nomenclature entre les éditions 1906-001 et 1924-227 (environ 260 ajouts et 40 suppressions, dont certaines scissions/fusions d’articles). Les refontes apportent, comme leurs noms l’indiquent beaucoup plus de changements.
Bibliographie
- Bohbot H., Frontini F., Luxardo G., Khemakhem M., Romary L. (2018) Presenting the Nénufar Project: a Diachronic Digital Edition of the Petit Larousse Illustré. GLOBALEX 2018 – Globalex workshop at LREC2018, May 2018, Miyazaki, Japan. pp. 1-6, <https://globalex.link/globalex2018/>. <hal-01728328>
- Cormier M., Francœur A. (2005) Les dictionnaires Larousse, genèse et évolution, presses de l’université de Montréal, 323 pages.
- Manuélian H. (2006) Le Petit Larousse Illustré de 1905 pris dans la Toile. Cahiers de Lexicologie, Centre National de la Recherche Scientifique, 1 (88), pp. 183-200. <hal-00526599>
- Manuélian H., Bruscand A., Cholewka N., Hetzel A.M. (2009) Le Petit Larousse illustré de 1905 en ligne : secrets de fabrication et présentation. Études de linguistique appliquée : revue de didactologie des langues-cultures, Klincksieck (Didier Erudition jusqu’en 2003), pp. 453-474. <hal-00526590>
- Mollier J.Y., Dubot B. (2012) Histoire de la librairie Larousse, 1852-2010, Fayard, (ISBN 978-2213669635)
- Pruvost J. (2002) Les dictionnaires de la langue française, collection Que sais-je ? n°3622, PUF, 128 pages (ISBN 978-2130525158)
- Pruvost J. (2004) La dent-de-lion, la Semeuse et le Petit Larousse, Larousse, 198 pages (ISBN 978-2035321657)
- Pruvost J. (2006) Les dictionnaires français, outils d’une langue et d’une culture, collection l’Essentiel français, Ophrys, 200 pages (ISBN 978-2708011434)