La statistique appliquée à l’analyse des textes: application à l'analyse du discours révolutionnaire latino-américain (1811-2009)

"(...) le discours n'est pas simplement ce qui traduit les luttes ou les systèmes de domination,
mais ce pour quoi, ce par quoi on lutte, le pouvoir dont on cherche à s'emparer."
Michel Foucault, L'ordre du discours, Gallimard, p.13.


Introduction
La scientificité des sciences humaines et sociales, en raison de la nature de leurs objets d’étude, a souvent été débattue. Les textes restent un de leurs objets d’étude privilégiés (histoire, sciences politiques…) et si leur étude ne peut se passer d’une lecture interprétative, cela ne doit pas pour autant empêcher la constitution de protocoles et de démarches formalisables et reproductibles.
Avec l’avènement de l’informatique "grand public" d’une part et d’autre part la disponibilité toujours plus grande d’archives textuelles numérisées, les sciences humaines et sociales se trouvent alors, depuis une quarantaine d’années, face à une redéfinition de leur approche du texte [1]. C’est dans ce contexte qu’ont été développés des méthodes et outils permettant l’exploration et la comparaison systématiques de grands corpus textuels à l’aide de comptages et probabilisations statistiques. L’application des méthodes statistiques à l’étude des textes constitue un ensemble de méthodes désigné sous le terme de statistique textuelle, que l’on peut aussi appeler, parmi nombre d’autres dénominations concurrentes et non sans nuances, lexicométrie [2]. C’est à la présentation générale de ces méthodes que je consacrerai mon exposé, en m’appuyant sur des exemples tirés de l’application de celles-ci à mes recherches sur le discours politique latino-américain.

1 – Emergence de la lexicométrie
La statistique textuelle, c'est-à-dire l’application des méthodes statistiques à l’étude des textes, est apparue en France dans les années 60. Elle est issue principalement des recherches de linguistes en collaboration cependant avec des chercheurs d’autres horizons (psychologie, histoire, mathématiques…). Ces méthodes, dès l’origine marquées par une transdisciplinarité que l’on retrouve encore aujourd’hui, ont émergés dans deux contextes différents :
-d’une part dans le cadre de recherches sur le style d’écrivains classiques ou de poètes (Molière, Corneille, Rimbaud…) où des chercheurs tels Charles Muller [3] et Pierre Guiraud [4], linguistes tout deux, dénombraient les mots ainsi que les catégories grammaticales des pièces de différents auteurs afin de mesurer l’évolution du style (longueur du vers dans différentes pièces de Molière, répartition des catégories grammaticales entre les pièces en vers et en prose, etc.). On parle alors plutôt de linguistique quantitative, de statistique linguistique ou lexicale.
-d’autre part comme une des méthodes de l’analyse du discours : en effet à la fin des années 60, la linguistique se trouve en pleine ébullition en particulier en raison du dépassement des limites de la discipline imposées par son fondateur, Saussure, qui la cantonnait à l’étude de la langue [5]. Dépassant alors les limites de la phrase et prenant pour objet le texte, puis le discours, des chercheurs constituent une nouvelle discipline, ou plutôt champ disciplinaire [6], qu’on appelle alors analyse du discours [7], "analyse linguistique, articulée à la fois aux genres discursifs, aux formations discursives, aux situations concrètes de communication et aux pôles énonciatifs […] prenn[ant] en charge des corpus larges et variés de discours authentiques, rapport[ant] ces derniers à leurs conditions sociohistoriques de production et de circulation, mett[ant] à jour leur idéologie sous-jacente" (Détrie et al. 2001 : 7-8). C’est donc dans ce cadre de renouvellement des études linguistiques qu’en France se développe – parallèlement à son émergence, légèrement antérieure, au sein des études stylométriques – la statistique textuelle, appliquée cette fois principalement au texte sociopolitique dans le cadre d’études historiques ou idéologiques. On étudie alors le discours de la Révolution française [8], le vocabulaire des mouvements ouvriers de 1848 [9], les résolutions syndicales des années 70 [10], etc.
L’objectif de la statistique textuelle, qu’à ce moment et en ce lieu institutionnel, on appelle plutôt lexicométrie est de « caractériser un positionnement par l’élaboration de réseaux quantifiés de relations significatives entre ses unités » [Maingueneau 1991 : 48]. Pour cela, la lexicométrie se charge alors de délinéariser le corpus de textes car elle « suppose qu’un corpus est soumis à des contraintes qui ne ressortissent pas au système linguistique, mais aux positionnements de ses énonciateurs, des contraintes qui ne sont pas accessibles à la conscience et n’apparaissent qu’à travers une lecture capable de désarticuler la surface discursive » [ibid.].
Notons bien entendu qu’avant ces deux moments fondateurs de la statistique textuelle en France, compter les mots était déjà venu à l’esprit d’érudits dans le cadre d’études bibliques et d’établissement de concordances mais aussi de recherches sténographiques (Estoup qui déduisait de la fréquence des mots leur plus ou moins grande probabilité d’apparition). Évoquons aussi les travaux d’analyse de contenu [11], menés aux États-Unis par Berelson, Lazarsfeld et Lasswell [12] notamment, qui ont influencé l’analyse de discours et la statistique textuelle.
Ainsi, à partir des années 60, dans un contexte fortement interdisciplinaire, vont se développer des méthodes statistiques ayant pour objet de « décrire qualitativement et quantitativement le contenu linguistique d’un corpus […] en mett[ant] en exergue les traits saillants des discours » [Mayaffre 2009 : 1]. Celles-ci vont connaitre tout au long des ans un essor substantiel dû au développement de leurs performances grâce à l’informatique et à la mise au point de nouveaux algorithmes tels les analyse factorielles des correspondances (AFC) [13] à la fin des années 60, la méthode des spécificités et des cooccurrences  [14] dans les années 70 et les analyses arborées [15], dans leur application aux textes, dans les années 80.
Ces méthodes se sont constituées autours d’un certain nombre de principes unificateurs, permettant leur formalisation et constituant ce que l’on peut appeler la démarche lexicométrique.


2 – La démarche lexicométrique
On peut distinguer quatre étapes dans la démarche lexicométrique [16] :
problèmes / données / traitement / interprétation

Sans m’attarder sur la première étape, celle de la problématique ou des hypothèses, propres à chaque recherche, j’évoquerai les trois phases de la démarche que constituent « le recueil des données, les programmes informatisés, le dispositif interprétatif » (Fiala 1994).

  • 2.1. Le recueil des données : le corpus de textes
Après le choix de la problématique, du locuteur ou de l’événement à étudier, la démarche lexicométrique commence par la constitution du corpus, moment-clé car le corpus est l’élément central de la démarche, « c’est un lieu construit où s’échafaude le sens, où se scénarise l’interprétation. […] le corpus est moins le réceptacle du sens que sa matrice » [Mayaffre 2010 : 12].
Le corpus en lexicométrie est constitué de données attestées (discours politiques, articles de journaux, sites web, réponses à des questions ouvertes…). Dans le cadre de l’analyse lexicométrique du discours sociopolitique, le corpus doit répondre à certaines exigences [Mayaffre 2009 : 1-3, que je reprends dans les lignes suivantes] :

2.1.1. "le corpus doit être clos"
Dans le cadre de l’analyse du discours et plus encore dans celui de la statistique textuelle, le corpus d’étude doit être délimité de façon rigoureuse. En effet, les comptages statistiques ne peuvent se faire que sur une population, ici les mots, précisément délimitée, sur un ensemble fermé. Le chercheur doit donc, en fonction de ses hypothèses de recherches ou de ses objectifs, délimiter et rassembler les textes qui constitueront le corpus. Les observations se feront uniquement à l’intérieur de ce corpus. La norme ne sera donc pas une hypothétique fréquence en Langue mais bien une norme endogène, propre au corpus tel qu’il a été construit dans le cadre de cette recherche particulière.

2.1.2. "le corpus doit être contrastif "
Le corpus étant délimité et les fréquences n’ayant pas de sens en soi, les comptages statistiques ne peuvent se faire qu’en comparant une population à une autre ou à une norme. En statistique textuelle la norme est endogène, c'est-à-dire que c’est le corpus qui constitue sa propre norme : les comparaisons ne peuvent donc être qu’internes au corpus. Il ne s’agit ni plus ni moins que de faire contraster les différentes parties du corpus entre elles mais aussi avec cette norme endogène qu’est le corpus dans son ensemble. C’est pour cela que le corpus doit être contrastif c'est-à-dire pouvoir être découpé en parties dont la comparaison revêt un intérêt socio-historique particulier. De façon générale, on privilégie deux types de contrastes : le contraste de locuteur et le contraste chronologique.
Ainsi, dans le cadre de recherche sur le discours de Fidel Castro, peut-on constituer un corpus couvrant les cinquante années de sa présence à la tête de l’Etat cubain (1959-2008), découper les corpus en cinq parties correspondant aux cinq décennies et faire contraster ces décennies entre elles d’abord, avec le corpus entier ensuite afin de noter l’évolution diachronique du vocabulaire et les particularités lexicales. En ce qui concerne le contraste entre locuteurs, on peut choisir de rassembler les textes des principaux locuteurs révolutionnaires latino-américains de l’époque contemporaine, de Bolivar jusqu’à Hugo Chavez, en un corpus clos puis de faire contraster ces locuteurs entre eux.
Le principe est donc assez simple ; mais on notera aussi ce qu’implique la norme endogène : toute modification du corpus (rajout d’un locuteur, suppression de textes…) entraine irrémédiablement une modification de la population observée et partant une modification, parfois infime, parfois notable, des résultats. Il faut donc toujours garder à l’esprit, notamment au moment du travail interprétatif et des inférences qui pourront être faites entre résultats lexicométriques et interprétations sociohistoriques, que les résultats dépendent étroitement du corpus.

2.1.3. "le corpus doit être homogène"
L’exigence de contrastivité doit cependant être tempérée par celle d’homogénéité : en effet, on ne peut comparer que ce qui est comparable et, pour prendre un exemple extrême et caricatural, il n’y aurait que peu d’intérêt, pour constituer un corpus contrastif, à rassembler dans un même corpus une pièce de théâtre espagnole du XVII° siècle et les discours de Castro. Tout contraste trop important produirait des résultats inexploitables tant sur le plan statistique que sur le plan sociohistorique. Les textes du corpus doivent donc avoir des points communs et être comparables, que ce soit au niveau des genres de discours (discours politique, discours littéraire…), de l’époque, des situations de communication (interview…). Généralement des hypothèses de recherches pertinentes et préalablement définies préservent d’un corpus trop disparate.

2.1.4. "le corpus doit être suffisamment vaste"
Enfin, le corpus doit aussi être suffisamment vaste pour permettre des comptages statistiques et des probabilisations qui aient du sens. Il n’est en effet guère pertinent de mettre en œuvres ces méthodes sur des textes de quelques pages ou quelques dizaines de pages.

2.1.5. Un corpus type : le corpus Castro5908
Ainsi, un événement historique comme la Révolution cubaine et un locuteur comme Fidel Castro, connu pour ses qualités oratoires, constituent une situation type pour une démarche lexicométrique. Le corpus est :
  • clos : il regroupe les discours prononcés par F. Castro.
  • contrastif : il permet une comparaison diachronique (par années, par décennie…) et typologique (discours prononcés à l’étranger, discours à la Nation, discours devant le Parti…).
  • homogène : il rassemble des textes du même genre (des discours politiques) et du même locuteur (Castro) à une même fonction (dirigeant de l’État cubain).
  • vaste : il regroupe plus de 1000 discours pour un total de 8 millions de mots soit 10.000 pages.
La démarche lexicométrique consistera alors à explorer le discours castriste en en faisant contraster les différentes parties préalablement définies selon deux variables contrastives : la situation de communication et la diachronie.
Une fois le corpus constitué, l’étape suivante est celle du traitement informatique du corpus.


  • 2.2. Les traitements lexicométriques
2.2.1. Partition et normes de dépouillement
Avant tout chose, il convient de souligner deux points :
    • Partition
Notons d’abord, de façon pratique, que le corpus doit être rassemblé dans un fichier informatique, généralement au format texte (.txt). Au moment de la constitution du fichier informatique, on devra partitionner le corpus, par locuteur ou par date ou selon toute autre variable en fonction de ses hypothèses de recherches, en plaçant au début de chaque partie une ligne de code qu’on appelle balise. Le corpus sera ensuite découpé par les logiciels en fonction de ces balises.
    • Dépouillements
Par ailleurs, les textes doivent être soigneusement corrigés afin que des graphies différentes ou des fautes d’orthographes ne viennent pas fausser les décomptes lexicométriques (ex. : antiimperialista / anti-imperialista / antimperialista…).On prêtera donc une certaine attention à homogénéiser l’orthographe du corpus (procédure qui peut se faire assez simplement à partir de la fonction « recherche/remplacer » d’un traitement de texte) : les abréviations (Sr. / Señor…), les sigles (USA / EEUU / Estados Unidos…), etc.
Enfin, se pose la question de ce que l’on appelle la norme de dépouillement : en effet il faut définir l’unité qui va être dénombrée et la notion de mot est bien trop difficile à définir pour des traitements automatisés. Sans m’attarder sur ce point qui a suscité nombre de débats, je soulignerai simplement qu’on a le choix entre deux normes de dépouillements : le dépouillement en formes graphiques et la lemmatisation:
  • dans les dépouillements en formes graphiques l’unité prise en compte est purement graphique c'est-à-dire « toute suite de caractères non-délimiteurs compris entre deux caractères délimiteurs » : seront ainsi considérés comme une seule et même forme graphique le participe passé estados et le substantif pluriel estados et les mots composés comme deux formes graphiques ;
  • la lemmatisation quant à elle consiste, à l’aide d’un dictionnaire et souvent d’un analyseur morpho-syntaxique, à ramener chaque forme graphique à sa forme canonique (le lemme, c'est-à-dire à leur entrée de dictionnaire) : les verbes conjugués à leur infinitif, les substantifs pluriels à leur forme masculin singulier etc.) : ainsi, le participe passé estados et le substantif estados seront considérés comme deux lemmes différents, l’un comme le verbe estar (au même titre que les autres déclinaisons du verbe estar que l’on rencontrerait dans le corpus : estoy…), l’autre comme le substantif singulier estado ;
  • ajoutons que la procédure de lemmatisation, consistant à ramener les formes graphiques à leur paradigme grammatical, s’accompagne fréquemment d’un étiquetage consistant à associer à chaque lemme une étiquette indiquant le code grammatical (adjectif, substantif…). On pourra donc tout aussi bien travailler sur les codes grammaticaux voire sur des enchaînements syntaxiques.
Chacune de ces deux normes de dépouillements a ses adeptes et ses contradicteurs et chacune a avantages et inconvénients [17], néanmoins, comme le souligne Damon Mayaffre, certains logiciels, tels Hyperbase associé à Cordial ou TreeTagger, permettant de travailler à la fois sur les formes graphiques et sur les lemmes, il ne s’agit plus de choisir entre dépouillement en formes graphiques [18] et lemmatisation mais bien d’associer les deux approches.
A cette étape de la démarche, le dispositif permettant au chercheur l’exploration (systématique, raisonné et statistique) de son corpus, est mis en place, ouvrant donc la voie aux traitements lexicométriques proprement dits. Les logiciels lexicométriques proposent deux types de fonctions : les fonctions documentaires et les fonctions statistiques.

2.2.2. Les traitements documentaires
Les fonctions documentaires permettent au chercheur de parcourir le corpus en rompant la linéarité de la lecture et, en ce qui concerne certains logiciels, en profitant des potentialités offertes par l’hypertexte. Les fonctions documentaires consistent alors d’une part en la création d’indexes, hiérarchiques (i.e. par ordre de fréquence) ou alphabétiques (par ordre lexicographique) et d’autre part en l’établissement de concordances.
Les indexes permettent de dresser la liste de tous les formes présentes dans le corpus, de vérifier leur localisation, de connaitre leur fréquence d’utilisation et parfois leur rang. A partir de ces listes de mots, le chercheur peut demander au logiciel d’établir des concordances c'est-à-dire de rassembler sur une même page l’ensemble des passages où un même mot apparait.
  • ainsi, à l’aide de l’index hiérarchique, d’un seul coup d’œil, on remarquera que pueblo est le mot plein le plus utilisé par F. Castro suivi par país et revolución.
  • de la même façon, l’index alphabétique, permet de rassembler, par exemple, toutes les formes commençant par seudo-, ce qui peut être intéressant pour étudier les procédés de disqualification à l’œuvre dans le discours castriste.
  • enfin, à l’aide de la concordance (parfois appelés contextes lorsque l’empan autours de la forme-pôle est plus large) de la forme clase, on peut englober d’un même regard l’ensemble des attestations de cette forme dans le corpus et observer les enchaînements syntagmatiques dans lesquels elle s’insère : lucha de clase ? clase obrera ? clase campesina ?…
Figures 1 et 2 : Indexes hiérarchique et alphabétique (extraits)


Figure 3 : Concordance de clase (extrait)

2.2.3. Les traitements statistiques
Les traitements statistiques constituent le cœur même de la démarche lexicométrique. Globalement les opérations essentielles sont la méthode des spécificités d’une part et les analyses multidimensionnelles d’autre part.
La méthode des spécificités peut être appliquée de différentes façons :
  • les diagnostics de ventilation et de spécificité concernant une forme graphique et permettant d’observer les variations des fréquences de cette forme dans les différentes parties d’un corpus ainsi que la significativité statistique de ces variations ;
  • les spécificités par partie dressant la liste des mots statistiquement surreprésentés ou sous-représentés dans une partie du corpus par rapport à la norme que constitue la fréquence totale dans le corpus entier ;
  • la recherche des cooccurrences qui permet de mettre au jour les associations syntagmatiques privilégiées entre deux ou plusieurs mots.
Notons que toutes ces opérations s’effectuent en prenant en considération quatre paramètres : T, la taille total du corpus (en nombre d’occurrences) ; t, la taille de la partie considérée ; F, la fréquence totale de la forme étudiée ; f, la sous-fréquence (dans la partie considérée) de la forme étudiée.
Quant aux analyses multidimensionnelles, ce sont principalement les analyse factorielles des correspondances dites AFC, les analyses arborées et les classifications hiérarchiques :
  • elles consistent principalement à comparer différentes parties du corpus en fonction du stock lexical de chacune d’entre elles permettant de mettre au jour les proximités et les distances entre parties du corpus en fonction du vocabulaire qu’elles contiennent et de créer ainsi des typologies ;
  • appliquée non plus au stock lexical global des parties du corpus mais à une liste de mots, les méthodes multidimensionnelles permettent, de la même façon, de mettre au jour les proximités entre mots en fonction du profil fréquentiel de chacun d’eux.
Notons que toutes ces opérations s’effectuent à partir de tableaux croisant en colonne les parties du corpus et en ligne les mots présents dans le corpus, avec à l’intersection de la ligne i et de la colonne j, la fréquence de la forme i dans la partie j [19], tableaux résumant l’information lexicale du corpus.
Bien entendu, d’autres algorithmes et techniques existent, notamment toute une série d’indices sur la richesse lexicale, l’accroissement du vocabulaire, etc.
Globalement, ce sont ces deux familles de méthodes qui constituent l’essence de la démarche lexicométrique et leur application aux corpus par les logiciels informatiques fournissent des sorties-machine (=documents lexicométriques) sous formes de tableaux et figures (histogrammes, plans factoriels, arbres, cartes de sections, graphes…) qu’il incombe au chercheur d’interpréter et de commenter.

  • 2.3. Remarques sur le moment interprétatif
L’interprétation constitue d’ailleurs le moment le plus délicat de la démarche car elle « transforme des constats en opinions » [Tournier 1980 : 200]. Il s’agit, après avoir effectué les manipulations et produit toute une série de documents lexicométriques, de mettre en rapport les constats statistiques et les hypothèses sociopolitiques ayant motivées la constitution du corpus. Interpréter en lexicométrie c’est valider ces hypothèses sociopolitiques « par une suite d’inférences remontant des constats statistiques aux usages discursifs et linguistiques dont ils sont la trace, puis aux données socio-historiques qui en constituent les causes » [Fiala 1994 : 119]. On réintroduit donc la subjectivité du chercheur là où l’on s’était efforcé de l’évincer en constituant une démarche objectivable et reproductible. Là repose donc la faiblesse de la démarche lexicométrique. Néanmoins, dans le cadre d’études textuelles et herméneutiques on ne peut s’offusquer qu’en fin de parcours, le sens donnée à l’analyse repose principalement sur « un commentaire […] guidée par l’intuition et les hypothèses du chercheur » [Fiala 1994 : 120], « l’interprétation lexicométrique pren[nant] ainsi place dans une sémantique des usages discursifs plus que dans une sémantique générale » [Fiala 2007 : 81].


3. La lexicométrie appliquée au discours révolutionnaire latino-américain

==Ventilation, spécificités et cooccurrences==
  • 3.1. Ventilation et diagnostic de spécificité : peuple chez Fidel Castro
La méthode des spécificités et, plus généralement, la recherche des ventilations des formes graphiques, peut se révéler utile en histoire par exemple pour étudier le parcours d’une notion sur une certaine période.
Face à un corpus réunissant près de 10000 pages de discours de Fidel Castro et couvrant l’ensemble du régime révolutionnaire cubain de 1959 à 2008, me suis-je interrogé sur la représentation du peuple dans la pensée castriste. On le voit d’emblée, les méthodes lexicométriques peuvent être d’une grande utilité et il apparait impossible de vouloir répondre de façon exhaustive à ce type d’interrogation sans l’aide de l’informatique et de la statistique. Comme cela a été dit, un simple regard sur l’index indique que pueblo est la forme pleine la plus utilisée par Fidel Castro de 1959 à 2008. Les fonctions documentaires permettent ainsi de répondre à une première question : le peuple est le premier acteur du discours castriste, bien avant le locuteur lui-même (yo), l’énonciateur collectif (nosotros) ou le pays (Cuba, país). Ce premier constat peut rapidement être complété en s’interrogeant sur l’évolution de cette notion tout au long des cinquante années de pouvoir castriste. En d’autres termes : les fréquences et le rang du mot pueblo subissent-ils des variations ? À quels moments ? Ces variations sont-elles significatives ?
Le choix d’une partition sur notre corpus préalablement balisé nous fournis des réponses à ces interrogations à travers des graphiques comme ceux-ci :



Figures 4 et 5 : Ventilation en fréquence relative et en spécificités
de pueblo sur l’ensemble du corpus Castro partitionné par année.

La figure n°4 indique clairement que la fréquence d’utilisation du mot peuple connait globalement une chute constante et ce dès la première année du pouvoir castriste.
La figure n°5, nous indique quant à lui que ces variations de fréquences sont fortement significatives et ne peuvent être statistiquement imputées au hasard. Plus précisément sur ce graphique on remarque que l’utilisation du mot pueblo connait une rupture dès 1962. Le travail d’interprétation et de commentaire consistera alors à chercher des inférences entre le niveau discursif et le niveau socio-historique : rappelons que 1962 est l’année qui suit la tentative avortée de renverser le régime castriste, l’annonce du caractère socialiste de la Révolution cubaine par F. Castro, la crise des fusée et plus généralement la rupture avec les États-Unis et le durcissement de la Révolution cubaine qui change résolument de caractère passant d’un « révolution patchanga » à une révolution socialiste fortement influencée par les soviétiques . Il y a-t-il un lien entre ces événements et l’évolution du discours ? Quoi qu’il en soit, ce que les programmes lexicométriques nous indiquent c’est que sans conteste à partir de 1962 Castro parle beaucoup moins du peuple dans ses discours ; ainsi, appuyés sur des constats statistiques facilement vérifiables et reproductibles quel que soit le chercheur, on peut dire qu’une rupture intervient dès 1962 dans le rapport au peuple.

  • 3.2. Cooccurrences : la représentation du peuple chez Castro
Les constats fréquentiels, aussi instructifs soient-ils, restent toutefois assez "désincarnés", "décontextualisés". Le concept de cooccurrence permet de replacer la forme étudiée dans son co-texte discursif. Ainsi, parallèlement aux évolutions quantitatives peut-on approcher les évolutions qualitatives de la notion étudiée en mettant au jour l’évolution des thématiques liées à celle-ci. Pour cela on recherche les mots qui sont plus fréquemment utilisés à côté d’une forme-pôle que dans le reste du corpus. Le procédé est simple : dans un premier temps, après le choix de la forme-pôle, ici pueblo, on divise le corpus en deux ensembles : un premier ensemble rassemblant toutes les phrases où apparait la forme-pôle et un deuxième ensemble rassemblant toutes les phrases ne contenant pas la forme-pôle ; dans un second temps, on applique le calcul statistique des spécificités afin de mettre en évidence les mots qui sont surreprésentés dans l’ensemble contenant la forme-pôle [22]. On dira alors que ces formes sont des co-occurrents spécifiques de la forme-pôle et qu’ils constituent son univers lexical. On peut donc rapidement mettre au jour les réseaux sémantiques qui se tissent autours de l’évocation du peuple et qui construisent la représentation castriste du peuple. On peut aussi observer l’évolution diachronique de ces réseaux sémantiques :

Tableau 1 : Cooccurrences spécifiques de la forme pueblo
calculées par rapport au corpus total dans chacune des périodes de 5 années [23].

Le tableau 1 rassemble pour chaque période cinq années les formes les plus fréquemment associées à pueblo permettant d’analyser le parcours thématique de cette notion : d’un peuple fortement associé à la Révolution et aux intérêts de la patrie, devant consolider la nation et se défendre contre les ennemis de la Révolution (revolución, enemigos, quiere…), on passe à la fin des années 60 à un peuple marqué par les préoccupations économiques et le sous-développement (caña, máquinas, técnica, trabajo, zafra, subdesarrollo, necesidades…), ce qui n’était pas nettement exprimé dans la période précédente. Dans les années 70 puis 80, le discours castriste parle alors beaucoup plus des peuples étrangers [24] (Vietnam, Chili, Tchécoslovaquie, URSS (soviético, soviética), Allemagne de l’Est (RDA), Guinée, Pologne, Bulgarie, Angola dans les années 70, Nicaragua, Grenade, Salvador, Namibie dans les années 80) que du peuple cubain, avec comme dénominateur commun pour tous ces peuples la lutte contre l’impérialisme yankee. Enfin, le peuple des années 1990 c’est celui qui participe à l’instauration des valeurs démocratiques à travers le vote et les élections des différentes assemblées, des députés, des délégués. Il s’agit de la seule période (plus précisément 1990-94) où la représentation du peuple est si intimement liée à la question politique dans ce qu’elle a de plus concret (voto, asamblea, diputados…) et non pas dans sa dimension idéologique ou conceptuelle. Enfin, dans les années 2000, on note une nouvelle évolution de la représentation du peuple marquée presque exclusivement par l’affrontement idéologique avec les États-Unis.

L’exploration faite à partir d’un seul mot, ici pueblo peut bien entendu être réalisée à partir de toute autre unité lexicométrique que ce soit le lemme, la catégorie grammaticale l’enchaînement syntaxiques ou les segments répétés.
Ainsi, dans le cadre d’une analyse du discours chaviste, je me suis rendu compte qu’Hugo Chavez, plus que tout autre dirigeant peut être, faisait un appel récurrent à l’histoire et aux grands personnages révolutionnaires latino-américains. J’ai alors voulu savoir comment évoluaient ces références. A partir de l’index alphabétique j’ai rassemblé les personnages historiques et politiques les plus évoqués par Chavez en une seule unité (appelé types généralisés (Tgen) ou groupe de formes [25]) que j’ai pu manier alors avec la même facilité que s’il s’agissait d’une simple forme graphique. Ensuite, le même type de diagnostic de ventilation et de spécificité peuvent être effectués :

Figure 6 : Les références historiques dans les discours chavistes
à travers l’évocation de 20 personnalités historiques et politiques latino-américaines
(en spécificités).

A travers la figure 6, on remarque ainsi que c’est à partir de 2002 que l’appel à l’histoire devient plus prégnant dans le discours chaviste.

Bien entendu ces remarques et manipulations mériteraient d’être approfondies, mais l’on voit comment, dès le dispositif d’observation construit, on peut entrer dans le discours étudié à partir d’une interrogation, le peuple chez Castro, les références historiques chez Chavez, etc., et mettre au jour des éléments permettant de construire une lecture du corpus sur la base d’opération vérifiables, reproductibles, objectivables, mesurables… Mais la méthode des spécificités permet aussi d'entrer dans le corpus non plus à l’aide d’un seul mot mais en considérant toute une période : on ne cherchera plus alors à savoir comment évoluent tels mots, tels groupes de mots ou telles thématiques et si leurs variations sont significatives mais plutôt quels sont les mots caractéristiques de tels périodes ou de tels locuteurs ?
Hugo Chavez, président du Venezuela depuis 1999, a dû faire face en avril 2002 à une tentative de coup d’État des secteurs conservateurs : comment son discours a-t-il évolué entre l’avant et l’après coup d’État avorté ?

  • 3.3. Spécificités chronologiques : l’évolution du discours chaviste
Le corpus Chavez [27] est donc découpé en 2 parties l’une allant de 1999 à mars 2002 et l’autre de mai 2002 à décembre 2006. Le programme des spécificités permet de faire contraster chacune de ces parties avec le corpus total afin de mettre au jour les formes graphiques plus spécifiquement présentes dans chacune d’elles. On obtient deux listes de formes résumant les principales spécificités lexicales des périodes considérées. Cet exposé n’étant pas le lieu d’une analyse du discours chaviste, je ne formulerai que quelques brèves remarques : le discours d’Hugo Chavez est d’abord assez neutre politiquement, principalement centrée sur l’économie, évoquant un peu la question sociale et très légèrement la question institutionnelle à travers la notion de Constituante [28]; en revanche, après la tentative de coup d’État, le discours chaviste se renforce idéologiquement : on y parle d’impérialisme et de socialisme notamment dans une perspective continentale où sont évoqués les principaux dirigeants de gauche du continent (Evo Morales, Lula, Fidel…).

Tableau 2 : Spécificités du corpus Chavez partitionné en 2 parties
(avant et après la tentative de coup d'Etat d'avril 2002)


==Analyses muldimensionnelles==

Aux côtés des techniques portant sur la ventilation des formes dans les parties du corpus et leurs probabilisations à l’aide des lois normale ou hypergéométrique, la lexicométrie dispose d’un deuxième type d’analyses basées sur la statistique multidimensionnelle permettant de représenter sur un plan, par approximation, les caractéristiques multidimensionnelles du corpus.

3.4. Analyse arborée et distance intertextuelle :
L’analyse arborée est une technique de classification qui, appliquée aux calculs de la distance lexicale ou intertextuelle, permet de représenter les proximités entre les parties du corpus en fonction de leur composition lexicale, en s’affranchissant des limites de l’AFC qui produit plusieurs facteurs devant être croisés pour être interprétés.
La connexion lexicale est calculée en prenant chacune des parties du corpus deux à deux : une forme se trouvant présente dans chacune des parties contribue à rapprocher ces parties alors qu’une forme présente seulement dans l’une d’entre elles contribue à les éloigner. Lorsque l’on prend en compte non plus la seule présence/absence des formes pour calculer les proximités entre parties mais leur fréquence, on ne parle plus de connexion mais de distance lexicale. Lorsque les calculs portent non plus sur les formes graphiques mais sur les lemmes ou les catégories grammaticales, on parle alors de distance intertextuelle.
Appliquée au corpus Castro partitionné par année, l’analyse arborée nous fourni ainsi une classification de chacune des années du corpus castriste en fonction du vocabulaire utilisé. Plus deux parties sont proches sur l’arbre, plus leur part de vocabulaire commun est grande ; les distances à parcourir sur l’arbre entre une partie et une autre sont significatives de la distance qui sépare leur vocabulaire. On peut donc visualiser les distances pour chaque paire de parties mais aussi comment certaines parties se regroupent en grappes sur une branche.
A partir de cette classification on peut distinguer une typologie en 4 ensembles (figure 7) : les années 1959-71, les années 1972-76, les années 1977-97 (à l’exception des années 1979, 1981 et 1983 qui se rapprochent plus de la première moitié de la décennie 70), et les années 1998-2008. On remarque d’ailleurs que les quatre premières années du corpus, les années 1959-62, se distinguent quelque peu des autres années de la décennie ce qui semble aller dans le sens des observations que nous avions faites sur la base de la simple fréquence du mot pueblo.


Figure 7 : Analyse arborée de la distance lexicale
du corpus Castro5908 partitionné par années.

Figure 8 : Analyse arborée de la distance lexicale
du corpus Revolucion partitionné par locuteurs.

Appliquée à des corpus pluri-locuteurs, le corpus Revolucion [29], l’analyse arborée permet de mettre au jour, sur la base des proximités lexicales, des univers de références idéologiques partagés entre locuteurs. Sur un corpus réunissant plus de 400 textes de 23 locuteurs révolutionnaires latino-américains de 1810 à 2009, deux ensembles assez homogènes apparaissent : les révolutions d’Indépendance et nationales antérieures à la Révolution cubaine et les guérillas d’influence marxiste et maoïste (figure 8). L’AFC permet de compléter l’étude des parentages entre locuteurs.

  • 3.5. Analyse factorielle et parentages lexicaux : le discours révolutionnaire en Amérique latine à l’époque contemporaine
La projection sur un plan des deux premiers facteurs de l’AFC permet de préciser différents éléments (figure 9).
De façon plus nette que l’analyse arborée, le premier facteur sépare l’ensemble des guérillas appartenant à "l’ère des révolutions marxistes [30]", ouverte par la victoire cubaine, (FSLN, MLN, Santucho, FMLN, MRTA, PCP-SL, EPR, FARC, ELN) de l’ensemble des autres locuteurs qu’ils soient antérieurs (Bolivar, Marti, Recabarren, Mella, Mariategui, Sandino, M26, Guevara, Castro) ou contemporains (Chavez), à deux exceptions près : l’EZLN, guérilla surgie en 1994, qui, selon le critère indiqué, devrait appartenir au premier ensemble cité, et, curieusement, Allende qui devrait appartenir au deuxième ensemble (seul locuteur n’appartenant pas à une guérilla à se retrouver sur l’axe 1 parmi les guérillas). Le critère de clivage le plus fort semble donc être la nature des locuteurs (guérillas modernes d’une part, révolutions traditionnelles et locuteurs « institutionnalisés » de l’autre), recoupé cependant par la diachronie (marquée fortement par la Révolution cubaine et séparant ce qui est avant (Bolivar, Marti, Recabarren…) et "pendant" (Castro et Guevara) de ce qui vient après). Notons aussi que les locuteurs au statut "pluriel" et appartenant de plus à la période de la Révolution cubaine (début des années 60) tels que Guevara (tout à la fois guérillero et ministre) et Camilo Torres (guérillero, sociologue et prêtre appartenant au mouvement de la théologie de la libération) se trouvent dans un entre-deux (proche du point 0 : 0,2 pour Guevara et 0,1 pour Torres).
Ensuite, on notera :
-la position polarisée de deux locuteurs soulignant la singularité de leurs profils lexicaux : le Sentier Lumineux (PCP-SL) d’une part et Sandino d’autre part ; en outre, le Sentier lumineux qui s’est réclamé, notamment à ses origines (Guzmán, 1968), de l’héritage de Mariategui, se trouve particulièrement éloigné de celui-ci sur le plan factoriel ;
-la position centrale de Guevara : si par ailleurs on regarde le tableau des distances à l’origine (tableau 3), on remarque que c’est ce même Guevara qui a l’indice le plus faible ; en d’autres termes, son profil lexical est le plus proche du discours révolutionnaire "moyen" ; du fait de sa position chronologique médiane, ce "discours moyen" peut être apprécié tant en termes de confluence que d’influence entre discours antérieurs et discours postérieurs à son surgissement ;
-les proximités relatives entre différents types de locuteurs peuvent être affinées à travers la configuration de trois groupes : les guérillas modernes d’une part dans la partie gauche du plan ; à l’opposé, dans le quart inférieur droit, légèrement décentré, les locuteurs représentant les années 1811-1959 ; enfin, entre ces deux ensembles, toujours dans le quart inférieur droit mais plus proche du centre, une série de locuteurs plus variés qui, à quelques exceptions près, représentent tout à la fois cette période de transition pour la Révolution en Amérique latine que sont les années 60 et ces révolutionnaires "institutionnalisés" (chefs d’État ou ministre dans le cas de Guevara ou Castro) ou au profil singulier (théologie de la libération : Camilo Torres) ; dans cet entre-deux, apparaissent les mêmes exceptions que nous avions soulignées précédemment : l’EZLN [31] qui chronologiquement et de par sa nature de guérilla devrait appartenir à l’ensemble guérillas modernes ; Chavez qui chronologiquement appartient au 21ème siècle mais qui de par son statut de chef d’État se trouve proche des chefs d’État du corpus, à savoir Allende et Castro ; à noter enfin Julio Antonio Mella, communiste cubain de années 20, qui se trouve rapproché de Castro, cubain lui-aussi.
Pour conclure cette première approche, les proximités des locuteurs deux à deux pourraient aussi être commentées : les deux indépendantistes Bolivar/Marti ; les deux marxistes Recabarren/Mariategui, du reste légèrement à l’écart des autres locuteurs de la même période; ou, en ce qui concerne les guérillas et leur positionnement idéologico-stratégique (guerre populaire prolongée, insurrection… (Lemoine, 1997 : 241-256)), le rapprochement sur l’AFC de certains mouvements armés revendiquant plus particulièrement un fort héritage idéologique marxiste et maoïste (EPR, MRTA, FMLN, Santucho et l’ERP) par rapport à d’autres pour lesquels cet héritage est moins marqué (malgré l’origine communiste de certaines guérillas comme les FARC-EP). A cet égard, la position légèrement décentrée du Front Sandiniste (FSLN) revêt toute son importance (rivalité en son sein de trois tendances (Pisani 1980 : 32-33 ; Lemoine 1997 : 224), héritage marxiste dilué [32] et en tout état de cause au fil des ans de moins en moins revendiqué), de la même façon que la position excentrée du Sentier Lumineux, guérilla la plus fortement imprégnée du "marxisme-léninisme-maoïsme principalement maoïsme" [33], interroge.

Figure 9 : AFC du corpus RévolutionAmlat
(8731 formes de F≥10 x 23 locuteurs).

Tableau 3 : Tableau des distances à l’origine
classées par valeurs croissantes de l’indice.

Ainsi, sur la base de décomptes lexicaux, l’AFC semble dessiner trois vocabulaires distincts croisant tout à la fois dimension diachronique et critères sociopolitiques.


==Segments répétés et groupes de formes==

  • 3.6. Proximités segmentales et interdiscours marxistes : De la circulation des formules marxistes
Tout au long des exemples qui ont été présentés les analyses et les calculs ont toujours été effectués sur la forme graphique (à l’exception du groupe de formes pour les références historiques chez Chavez) même si j’ai souligné à plusieurs reprises qu’ils auraient aussi bien pu être effectués de la même manière sur les lemmes, les catégories ou d’autres unités. Les segments répétés permettent l’exploration du corpus sur la base non plus de formes isolées mais de séquences de plusieurs mots apparaissant de façon récurrente dans un corpus (locutions figées, expressions, enchainements syntagmatiques…), utile notamment dans le cadre d’étude de phénomène de sloganisation ou de stéréotypie… C’est à partir de cette notion et d’une interrogation sur la circulation, à l’intérieur du discours politique, de lexies figées caractéristiques de certains corpus idéologiques qu’a été développée l’idée de proximités segmentales : « l’attestation simultanée dans deux textes de séquences identiques dont la taille dépasse la forme induit le sentiment que les textes se réfèrent à des concepts communs, qu’ils ont peut-être été produits dans des conditions proches, sinon par des formations discursives proches, même si leurs stocks lexicaux, pris dans leur totalité, ne présentent pas de similitudes particulières » (Salem 2006 : 841).
Dépassant le seul cas des parentages entre locuteurs révolutionnaires latino-américains et cherchant à mettre au jour leur relation au marxisme, le corpus a été augmenté des principaux textes de sept figures du marxisme international (Marx, Engels, Lénine, Trotski, Gramsci, Staline, Mao). La prise en compte des segments répétés et l’étude des proximités segmentales permettent de mettre au jour la circulation des concepts marxistes dans le discours révolutionnaire et d’en mesurer la présence de sorte d’analyser sous un angle particulier (l’interdiscours marxiste) les proximités idéologiques qui peuvent exister entre les différents locuteurs latino-américains d’une part et les grandes figures du marxisme de l’autre.
Ont alors été sélectionnés une série de formules et désignants marxistes à fort contenu idéologique et particulièrement fréquents dans le corpus.

Tableau 4 : Liste des segments répétés "formules marxistes".

Chacun des trente segments répétés retenus est attesté chez plusieurs locuteurs marxistes et au moins 50 fois dans l’ensemble du corpus. Rassemblé en un groupe de formes, la ventilation en spécificités de l’ensemble composé par ces formules nous renseigne sur les locuteurs latino-américains qui utilisent plus particulièrement ces concepts marxistes et sur la circulation de ceux-ci : le Sentier Lumineux et Santucho sont ceux qui mobilisent le plus ces concepts, suivis par l’EPR mexicain, le prêtre colombien Camilo Torres et le MRTA (Mouvement Révolutionnaire Túpac Amaru). On le voit ces résultats recoupent en partie les analyses multidimensionnelles qui avaient relevé la proximité entre ces locuteurs (cf. analyse arborée fig. 8). Par ailleurs, la relative absence de ces segments chez certaines guérillas dites marxistes peut suggérer une certaine dépolitisation ou désidéologisation de leur discours.

Figure 11 : Formules marxistes dans le discours révolutionnaire.


Conclusion
Tout au long de cet exposé ont été présentés les grands principes d’une démarche lexicométrique. Bien entendu, il ne s’agit que d’un survol trop rapide et bien des points mériteraient d’être détaillés. Ajoutons qu’il ne s’agissait pas d’examiner ici les modèles statistiques mais plutôt d’une présentation, à l’usage des chercheurs en sciences humaines et sociales, de la mise en œuvre de ceux-ci à travers des programmes informatiques.
Les méthodes lexicométriques sont intéressantes d’une part en ce qu’elles constituent une démarche formalisable et reproductible qui permet d’évacuer un temps la subjectivité du chercheur même si celle-ci ne tarde pas à resurgir au moment de l’interprétation. Par ailleurs, elle permet de mettre au jour des phénomènes qui seraient passés inaperçu à l’œil nu. Enfin, autre avantage, elle permet au chercheur de prendre en compte de vastes corpus dont auparavant l’étude aurait nécessité une vie entière.
Soulignons pour terminer que bien des reproches peuvent être et ont été formulés à l’encontre des méthodes lexicométriques. Certaines sont en voie d’être levées par l’amélioration constante des techniques. Enfin, la lexicométrie doit être utilisée en articulation avec d’autres approches du texte.

Notes
[1] Voir [Mayaffre 2002], [Rastier 2001], [Viprey 2005], [Viprey 2006].
[2] Pour notre part nous utiliserons ici indistinctement statistique textuelle et lexicométrie. D’autres dénominations concurrentes tel que statistique lexicale, analyse des données textuelles, logométrie…
[3] Cf. [Muller 1967]
[4] Cf. [Guiraud 1954] [Guiraud 1960]
[5] [Saussure 2005 : 38-39]
[6] Le statut de l’AD a souvent été questionné. Maingueneau parle de « discipline » (1991 : 9 ; 2002 : 45), Moeschler et Reboul de « sous-discipline […] plus ou moins bien définie » (1998 : 7).
[7] Cf. Langages, n°13, 1969. Voir plus particulièrement [Maingueneau 1991], [Mazière 2005], [Sarfati : 1997].
[8] [Guilhaumou 1980]
[9] [Tournier 1973], [Tournier 1975].
[10] [Bergounioux et al. 1982]
[11] [Bardin 1977]
[12] [Lazarsfeld et Berelson 1948], [Lasswell 1952]
[13] [Benzecri 1976], [Prost 1974].
[14] [Lafon 1984]
[15] [Luong 1989]
[16] [Lebart & Salem 1994 : 19]
[17] Cf. les deux textes fondateurs du débat sur les normes de dépouillements, celui de Tournier (1985) prônant le travail sur formes graphiques et celui de Muller (1984) défendant la lemmatisation. Voir aussi [Brunet 2000] et [Brunet 2002].
[18] Afin de ne pas surcharger mon propos, je ne parlerai dorénavant que de formes graphiques mais notons que toutes les opérations lexicométriques que l’on effectue sur les formes graphiques peuvent être reproduites de la même manière sur les lemmes, les codes grammaticaux et les enchainements syntaxiques ainsi que sur les segments répétés et parfois même sur des groupes de formes.
[19] Je simplifie quelque peu : en effet, certaines classifications (comme la classification descendante hiérarchique effectuée par Alceste) ne prennent pas pour base un tableau de fréquence mais un tableau de présence/absence (absence=0, présence=1) ; par ailleurs, certains tableaux ne retiennent que les fréquences supérieures à un certain seuil, supprimant alors toutes les bases fréquences ; enfin, des classifications telles les analyses arborées peuvent prendre pour base non pas les tableaux lexicaux mais les tableaux de distances. Néanmoins les tableaux lexicaux entiers constituent la base des analyses multidimensionnelles.
[20] Forme pleine ou forme lexicale en opposition à mots-outils ou formes fonctionnelles ; distinguent globalement les mots portant une charge sémantique forte (substantif, adjectif, verbes…) au mot au sémantisme plus faible ayant un rôle plus proprement syntaxique.
[21] [Delmas 2006]
[22] Je simplifie quelque peu l’explication de la démarche. Par ailleurs, notons que différents calculs existent pour mettre en évidence les co-occurrents d’une forme pôle, que des nuances existent quant à la terminologie (univers lexical….) et qu’enfin, les calculs des co-occurrents sont paramétrables notamment en ce qui concerne l’empan contextuel autours de la forme pôle, les seuils de détection des cooccurrences (fréquence et spécificité), etc.
[23] Le calcul des co-occurrents spécifiques par périodes s’est fait selon les paramètres suivants : partition par périodes de 5 années ; unité de contexte pour le recherche des co-occurrents=phrase ; co-fréquence≥150 ; spécificité≥10 ; comparaison avec le corpus total. Seuls les substantifs, adjectifs et verbes ont été conservés.
[24] On peut remarquer ce phénomène si l’on observe la ventilation des segments composés de [pueblo + adjectif  national] ou [pueblo + déterminant + nom de pays] dans le corpus : il apparait que les "pueblo cubano" et "pueblo de Cuba" sont fortement spécifiques des premières années du corpus quand "pueblo chileno", "pueblo de Nicaragua", "pueblo soviético", etc. sont fortement spécifiques des années 65-79.
[25] Voir [Lamalle et Salem : 2002]
[26] Gual, Piar, Morazán, Páez, Artigas, O’Higgins, Sucre, Miranda, Bolívar, Martí, Zapata, Sandino, Castro, Guevara, Mariátegui, Nariño, Villa, Torres, Fidel, Allende.
[27] Le corpus Chavez réunis les principales interventions discursives d'Hugo Chavez de son accession au pouvoir en janvier 1999 jusqu'à sa réélection en décembre 2006. Il compte 261 prises de parole (principalement discours, mais aussi quelques conférences de presse et allocutions) pour un total d'1,8 million d'occurrences. Pour plus de détails sur le corpus Chavez voir [de Sousa 2010c] ou la présentation du corpus sur EDisPAL.
[28] Chavez à œuvré pour une nouvelle Constitution approuvé en 2000.
[29] Le corpus Revolucion réunis les principaux textes de 23 révolutionnaires latino-américains de Bolivar à Hugo Chavez en passant par José Marti, Emiliano Zapata, Augusto C. Sandino... pour un total d'1,2 million d'occurrences. Pour l'étude dont sont extraites les analyses ici présentées, voir [de Sousa 2010b] et pour une présentation du corpus, voir cette page sur EDisPAL.
[30] Réunies par Vayssière sous la dénomination "révolutions marxistes et leurs prolongements" (1991: 127-379).
[31] Dont Le Bot a noté le "langage symbolique particulier" et la "parole poético-politique" (1997 : 19 et 23).
[32] Lemoine parle de "détonnant cocktail de nationalisme, de religiosité et de marxisme. Un radicalisme jacobin […] qui permet […] de se réclamer à la fois de l’avant-garde léniniste et du pluralisme" (2002 : 23).
[33] Selon la formulation en vigueur au sein du PCP-SL, dérivée du "marxisme-léninisme-pensée Mao Tse-Tung" de l’intellectuel et guérillero péruvien des années 60 Luis de la Puente Uceda. Hertoghe et Labrousse parle de "version(s) sectaire(s) et sanglante(s) du marxisme léninisme" et d’un "discours maoïste" "mélange assez déconcertant de dogmatisme et de mysticisme" (1988 : 218 et 223).


Bibliographie
BARDIN Laurence, L’analyse de contenu, Paris, PUF, 1977.
BENZECRI Jean-Paul et al., L'analyse des données, vol. 2: L'analyse des correspondances, Paris, Dunod, 1976, 616 p.
BERELSON B., LAZARSFELD P. F., The analysis of communications content, Chicago / New York, University of Chicago/ Columbia University, 1948.
BERGOUNIOUX Alain et al., La parole syndicale. Études du vocabulaire confédéral des Centrales ouvrière françaises, 1971-1976, Paris, PUF, coll. « Politique d'aujourd'hui », 1982, 270 p.
BRUNET Etienne, « Le lemme comme on l'aime », in A. Morin & P. Sébillot (dir.), 6e Journées d'analyse des données textuelles, vol. 1, Rennes, IRISA, 2002, p. 221-232. [disponible en ligne]
BRUNET Etienne, « Qui lemmatise dilemme attise », Lexicometrica, n°2, 2000. [disponible en ligne]
DELMAS Claude, Cuba: de la révolution à la crise des fusées, Bruxelles, Ed. Complexe, coll. « Historiques », n°155, 2006, 217 p.
DÉTRIE Catherine, SIBLOT Paul & VÉRINE Bertrand, Termes et concepts pour l’analyse du discours – Une approche praxématique, Paris, Champion, 2001.
FIALA Pierre, « L'analyse du discours politique: analyse de contenu, statistique lexicale, approche sémantico-énonciative », in BONNAFOUS Simone, TEMMAR Malika (coord.), Analyse du discours et sciences humaines et sociales, Paris, Ophrys, coll. "Les Chemins du discours", 2007, p. 73-85. [disponible en ligne]
FIALA Pierre, « L'interprétation en lexicométrie. Une approche quantitative des données lexicales », Langue française, n° 103, 1994, p 113-122.
GEFFROY Anne, LAFON Pierre, TOURNIER Maurice, « L'Indexation minimale. Plaidoyer pour une non-lemmatisation », Communication au "Colloque sur l'analyse des corpus linguistiques: Problèmes et méthodes de l'indexation minimale", Strasbourg, 21-23 mai 1973 (ENS de Saint-Cloud,1974).
GEFFROY Annie, « La désignation socio-politique : nous et peuple chez Robespierre », Histoire moderne et contemporaine et informatique, n°4, 1984, p. 96-122.
GUILHAUMOU Jacques, « Les discours jacobins (1792-1794) », Mots, n°1, 1980, p. 218-225. [disponible en ligne]
GUIRAUD Pierre, Les caractères statistiques du vocabulaire, Paris, PUF, 1954.
GUIRAUD Pierre, Problèmes et méthodes de la statistique linguistique, Paris, PUF, 1960.
GUZMÁN Abimaël, « Para entender a Mariategui », Conferencia en la Universidad de San Cristóbal, Ayacucho, 1968. [disponible en ligne]
HERTOGHE Alain, LABROUSSE Alain, Le Sentier lumineux du Pérou. Un nouvel intégrisme dans le tiers-monde, Paris, La Découverte, 1988.
LAMALLE Cédric et SALEM André, « Types généralisés et topographie textuelle dans l'analyse quantitative des corpus textuels », JADT 2002, Actes des 6èmes Journées internationales d’Analyse statistique des Données Textuelles, vol. 2, Saint-Malo, Irisa et Inria, 2002, p. 403-412. [disponible en ligne]
LANGAGES, n°13, Analyse du discours (coord. J. Dubois & J. Sumpf), 1969. [disponible en ligne]
LASSWELL H. D., « L'analyse de contenu et le langage de la politique », Revue française de science politique, vol. II-3, 1952. [disponible en ligne]
LE BOT Yvon & sous-commandant Marcos, Le rêve zapatiste, Paris, Seuil, 1997. [disponible en ligne]
LEBART Ludovic, SALEM André, Statistique textuelle, Paris, Dunod, 1994, 344 p. [disponible en ligne]
LEMOINE Maurice, Amérique centrale. Les naufragés d’Esquipula, Nantes, L’Atalante, 2002.
LEMOINE Maurice, Les cents portes d’Amérique latine, Paris, L’Atelier, 1997.
LUONG Xuan (éd.), Analyse arborée des données textuelles, Nice, INALF CUMFID/CNRS, 1989.
MAINGUENEAU Dominique, L’analyse de discours. Introduction aux lectures d’archives, Paris, Hachette, 1991.
MAYAFFRE Damon, « L’analyse du discours assistée par ordinateur », Séminaire de formation, Alexandrie, 1er-11 décembre 2009. [disponible en ligne]
MAYAFFRE Damon, « L'Herméneutique numérique », Encyclopédie de l’Astrolabe, 2002. [disponible en ligne]
MAYAFFRE Damon, Habilitation à Diriger des Recherches, Nice, 2010. [inédit]
MAZIERE Françoise, Analyse du discours, Paris, PUF, 2005.
MOESCHLER Jacques & REBOUL Anne, Pragmatique du discours, Paris, Armand Colin, 1998.
MULLER Charles, Etude de statistique lexicale. Le vocabulaire du théâtre de Pierre Corneille, Paris, Larousse, 1967, 392 p. (rééd. Genève, Slatkine Reprints, coll. "Travaux de linguistique quantitative", n°2, 1993, 379 p.)
PISANI Francis, Muchachos. Nicaragua. Journal d’un témoin de la révolution sandiniste, Paris, Encre, 1980.
PROST Antoine (avec GIRARD L. & GOSSEZ R.), Vocabulaire des proclamations électorales de 1881, 1885 et 1889, Paris, PUF, 1974, 196 p.
RASTIER François, Arts et sciences du texte, Paris, PUF, 2001.
SALEM André, « Proximités segmentales », in Viprey J.-M. et al. (éd.), Actes des JADT’06 (8èmes Journées Internationales d’Analyse des Données Textuelles), 2006, p. 843-853. [disponible en ligne]
SARFATI Georges-Elia, Éléments d’analyse du discours, Paris, Nathan, coll. "128", 1997.
SAUSSURE Ferdinand de, Cours de linguistique générale, Paris, Payot, 1969. [disponible en ligne]
TOURNIER Maurice, « D'où viennent les fréquences de vocabulaire? », Mots, n°1, 1980, p. 189-212. [disponible en ligne]
TOURNIER Maurice, « Le vocabulaire des pétitions ouvrières de 1848: étude des parentages statistiques », in ROBIN Régine, Histoire et linguistique, Paris, Armand Colin, 1973.
TOURNIER Maurice, « Sur quoi pouvons-nous compter? Réponse à Charles Muller », Verbum, numéro spécial, Etudes de philologie et de linguistique offertes à Hélène Nais, Nancy, Presses universitaires de Nancy, 1985.
TOURNIER Maurice, Un vocabulaire ouvrier en 1848. Essai de lexicométrie, Saint Cloud, Publications de l'ENS, 4 vol. 1975.
VAYSSIÈRE Pierre, Les révolutions d'Amérique latine, Paris, Seuil, 1991, 469 p.
VIPREY Jean-Marie, « Philologie numérique et herméneutique intégrative », in ADAM Jean-Michel et HEIDMAN Ute (dri.), Sciences du texte et analyse de discours : enjeux d’une interdisciplinarité, Genève, Slatkine, 2006, p. 51-68.
VIPREY Jean-Marie, « Structure non séquentielle du texte », Langages, n°161, Unité(s) du texte (dir. Dominique Legallois), Paris, Larousse, 2005, p. 65-82. [disponible en ligne]


NB: Il s'agit d'une version de travail de la communication présentée aux Journées Doctorales 2010 de l'Ecole Doctorale Humanités (JDH2010) sur la thématique "Quelle scientificité pour les Humanités?" qui se sont tenues à Mulhouse les 27 et 28 mai 2010.
Pour citer: Serge de Sousa, "La statistique appliquée à l’analyse des textes: application à l'analyse du discours révolutionnaire latino-américain (1811-2009)", Journées Doctorales 2010 de l'Ecole Doctorale Humanités (JDH2010) "Quelle scientificité pour les Humanités?", Mulhouse, 27 - 28 mai 2010 [en ligne].