Les méthodes d’analyse statistiques de textes (lexicométrie, textométrie, linguistique computationnelle, text mining, etc.) connaissent aujourd’hui d’importants développements dans tous les champs scientifiques et dans la société en général. Ces méthodes peuvent en effet répondre aux questions et aux intérêts d’acteurs multiples (entreprises privées, acteurs de la gestion publique, des milieux du renseignement, data-journalism, etc.). Elles prennent également une place croissante dans les sciences humaines et sociales, et notamment chez les chercheurs et chercheuses qui se réclament des humanités numériques. Ceci a donné lieu à de nombreux colloques, à des rencontres scientifiques régulières, telles que les JADT, et à plusieurs synthèses récentes (Léon & Loiseau 2016, Jenset & McGillivray 2017).
La position des historien·nes peut paraître paradoxale : leur travail repose en grande partie sur des textes utilisés comme sources, et les évolutions de l’historiographie moderne les ont conduits à accorder une attention toujours plus grande aux discours et aux représentations des acteurs du passé. La lexicométrie historique a à ce titre connu de grands succès et bénéficié d’une excellente visibilité dès les années 1970, notamment au Centre de lexicologie politique de l’ENS Fontenay/Saint-Cloud. Pourtant, malgré l’influence du linguistic turn et le développement d’outils informatiques à la fois plus puissants et plus accessibles, les usages de la textométrie en histoire se sont révélés plus dispersés par la suite, malgré d’incontestables succès (Genet 2011). La faible présence des historien·nes aux JADT est de ce point de vue symptomatique.
On entrevoit aujourd’hui un renouveau de l’approche textométrique en histoire, mais suivant une démarche différente, celle du text mining, pensée comme une aide au dépouillement d’archives textuelles massives issues de programmes de numérisation des sources (Projet Corpus de la BnF par exemple – Moiraghi 2018).
L’objectif de ce colloque est de dresser un panorama des utilisations actuelles des méthodes d’analyse statistique des textes en histoire, quelle que soit la période et l’espace étudiés, à un moment où le contexte intellectuel, social et technique invite ainsi à les repenser. Plusieurs questions peuvent être posées pour mieux comprendre leur place et leurs apports en histoire.
Depuis les débuts des relations entre histoire, linguistique et statistique lexicale, les historiens n’ont jamais cessé de réfléchir sur leurs pratiques (Robin 1973 ; Guilhaumou, Maldidier, Robin 1994 ; Genet 2011 ; Léon 2015 ; Léon & Loiseau 2016), et de nombreuses questions historiographiques restent ouvertes. S’interroger sur les relations entre la discipline historique, la langue et le discours implique ainsi de revenir sur les étapes fructueuses de cette histoire comme les travaux du laboratoire de lexicologie politique de l’ENS Fontenay/Saint-Cloud, ou ceux du laboratoire de statistiques linguistiques de l’Université de Nice. Mais aussi de réfléchir aux entreprises scientifiques et intellectuelles qui, bien qu’elles eurent une grande importance épistémologique, n’ont pas toujours été poursuivies avec la même intensité, telles que les recherches de Michel Pêcheux et de Denise Maldidier. De même, il reste à interroger les modalités des relations entre histoire, linguistique et textométrie, à l’image par exemple des parcours d’historiens comme Jacques Guilhaumou ou Régine Robin, qui se caractérisent par le passage d’un recours à la statistique lexicale à des démarches plus proches de l’histoire conceptuelle.
En France, la lexicométrie historique s’est originellement attachée à l’étude de la littérature politique et syndicale. Si cette tradition demeure vivace (Mayaffre 2010) et touche parfois le grand public (Alduy 2017 ; Souchard, Wanich & Cuminal 1998), on peut se demander quels sont les autres types de sources soumis aujourd’hui par les historien·nes à cette approche. Certaines « langues » présentent de forts particularismes – celles des chartes, des câbles diplomatiques, ou encore du droit par exemple. D’autres sources se caractérisent par des conditions d’énonciation particulières (oralité, écrits de l’intime et du for privé, textes littéraires...). Quels sont alors les problématiques et les protocoles d’analyses les plus pertinents ?
La langue peut elle-même devenir objet d’histoire, en particulier lorsqu’elle fonctionne comme le vecteur d’un pouvoir. C’est par exemple ce qu’a montré Serge Lusignan en histoire sociolinguistique (Lusignan 2004 et 2012), dans une perspective plus qualitative. Les enjeux langagiers de la domination sont également au cœur d’approches historiographiques comme l’histoire du genre ou les postcolonial studies. On peut alors s’interroger sur la place des méthodes textométriques dans ces démarches et sur leur capacité à saisir les stratégies discursives et les faits de discours qui sont au cœur de leur analyse.
De nombreux champs de la discipline historique ont parallèlement été renouvélés par le « tournant documentaire » (archival turn – voir par exemple Chastang 2008 pour l’histoire médiévale ou Guyotjeannin 1995), consistant à considérer la source, l’archive, comme un objet construit dont l’étude des conditions de production et de conservation complète ou enrichit l’interprétation du contenu. Dans cette perspective, la lexicométrie perd-elle de son utilité ou peut-elle être réinvestie d’autres missions centrées sur le document lui-même, sur ses aspects formels, sa genèse ou son devenir ?
L’outillage statistique de la lexicométrie suppose de disposer d’un corpus de textes non seulement représentatif mais aussi relativement important pour produire des résultats significatifs. Au-delà des débats sur la taille idéale d’un corpus lexicométrique en histoire, on peut se demander comment varier les échelles d’analyse en articulant des méthodes complémentaires (fouille de textes sur de gros corpus vs. analyse ciblée d’un lexique). La question prend d’autant plus d’importance que se multiplient les sources numérisées ou nativement numériques, tels que les écrits du Web. Comment les historiens peuvent-ils s’approprier ces gisements de données textuelles, et que peuvent-ils apporter, forts de leur expérience critique des sources, sur leur constitution et leur utilisation ? L’actualité des publications montre que ces transformations touchent toutes les périodes historiques et des objets variés, (Mayaffre 2010, Perreaux 2014, par exemple) et bouleversent la géographie de la recherche (Putnam 2016). Nous voudrions lors de ce colloque poursuivre et approfondir ce questionnement.
Éviter l’anachronisme dans le sens des mots lorsque l’on étudie un corpus de manière diachronique est un souci ancien pour les historiens (Prost 1988). Les recherches dans ce domaine semblent aujourd’hui reprendre un intérêt nouveau notamment en ce qui concerne la visualisation de la temporalité (Ratinaud & Marchand 2014). Si on laisse parler les mots, la lexicométrie peut aider à dégager un temps lexical, des cycles utiles au travail de l’historien (Salem 1988). Il existe des méthodes statistiques (AFC, topic modeling...) permettant de percevoir des phénomènes de substitutions lexicales, mais les transformations sémantiques sont encore assez peu abordées en histoire. Existe t-il des moyens pour percevoir des évolutions sémantiques ? Peut-on retracer des influences sémantiques dans le temps ? Comment faire avec des données temporelles discontinues, parfois très espacées dans le temps ? Ces questions relèvent naturellement de la démarche de l’historien, qui travaille par définition sur la temporalité, mais elles prennent une importance particulière dans le domaine des écritures numériques qui, bien souvent, sont structurées de manière chronologique (Facebook, Twitter, etc.)
Depuis l’ouvrage de Lebart et Salem (Lebart & Salem 1994), les outils statistiques se sont à la fois stabilisés et développés, et avec eux les protocoles d’analyse mis en œuvre dans les différents logiciels offerts en accès libre (autour de R par exemple, voir Bécue Bertaut 2018) ou via des plateformes Web. Les nouvelles méthodes que l’on voit naître permettent d’investir autrement des corpus, comme c’est le cas pour Linkage (http://linkage.fr) qui se propose d’introduire le texte dans les méthodes de classifications de réseaux sociaux. On pourrait également citer l’utilisation des topic models ou le développement récent d’algorithmes de deep learning reposant sur une approche par vecteur de mots (Embedding Layer, Word2Vec, GloVe). Les travaux utilisant ces méthodes (par exemple Levy & Goldberg 2014 ainsi que Barron et alii 2018) laissent entrevoir de forts potentiels pour la description rapide des contenus des documents et leur comparaison. Comment les historiens peuvent-ils se les approprier ?
L’outillage informatique utile à une démarche linguistique dans les sciences humaines et sociales n’est pas que statistique, comme en témoigne par exemple le logiciel Nooj, qui permet une formalisation fine des langues naturelles. Une telle approche présente un intérêt pour la connaissance de l’état d’une langue, mais elle permet aussi de l’aborder dans sa diachronie.
Plus largement, se pose la question des approches qualitatives qui doivent trouver toute leur place dans ce colloque. L’enjeu est bien de profiter de la richesse et de la complémentarité des approches qualitative et quantitative de la langue (Paveau 2012), et ainsi d’aborder le plus largement possible les rapports entre langue et histoire. Les contributions illustrant le bénéfice de l’utilisation de ces différentes méthodes seront les bienvenues.