Les Echos Lundi 7 octobre 2019 IDEES & DEBATS// 13
sciences
LINGUISTIQUE// Deux études remarquables du même laboratoire lyonnais révèlent quelques
aspects étonnants de ces entités bien plus mystérieuses qu’il n’y paraît : les langues humaines.
Les fascinants secrets des langues
Yann Verdo
@verdoyann
N
ous connaissons tous, dans notre
entourage, des gens qui parlent
comme de véritables « mitraillet-
tes » et d’autres dont l’élocution est au
contraire plutôt traînante. Si nous sommes
un minimum polyglottes, nous aurons éga-
lement remarqué que c es différences dans le
débit de paroles ne se rencontrent pas que
d’un locuteur à l’autre, mais aussi d’une lan-
gue à l’autre : pas besoin de lire Murakami
ou Cervantès dans le texte pour savoir que
ces deux l angues, l e japonais e t l’espagnol, s e
parlent plutôt vite... U ne é quipe d e linguistes
du laboratoire Dynamique du langage (uni-
versité Lumière Lyon-II) s’est posé une inté-
ressante question. Elle s’est demandé si le
fait que certaines langues se parlaient avec
un débit plus rapide que d’autres les ren-
daient plus efficaces pour transmettre de
l’information. Et leurs conclusions, parues
le mois dernier dans la revue « Science
Advances », sont tout à fait étonnantes.
Pour leur expérience, les linguistes lyon-
nais ont demandé à 170 locuteurs de 17 lan-
gues différentes de lire à voix haute des
séries de textes. Et ils ont appliqué à leurs
enregistrements les méthodes et outils
d’analyse hérités de la théorie de l’informa-
tion du génial Claude Shannon. Première
observation : le constat intuitif que certai-
nes langues semblent plus rapides que
d’autres à l’oreille est parfaitement justifié.
Le débit de paroles, mesuré en nombre de
syllabes prononcées par seconde, varie qua-
siment du simple au double, sur un éventail
allant de 8,03 syllabes par seconde pour le
japonais à 5,25 pour le vietnamien et même
4,70 pour le thaï – comme quoi ces varia-
tions n’ont rien à voir avec la répartition géo-
graphique, puisque les langues asiatiques se
trouvent aux deux extrémités du spectre.
Mais cela ne nous renseigne pas sur la plus
ou moins grande efficacité supposée des
langues à transmettre de l’information.
Pour cela, les signataires de l’étude ont
mesuré un autre paramètre, un peu plus
difficile à saisir : la densité syllabique
d’information. Principal auteur de l’étude, le
linguiste François Pellegrino nous explique
ce qu’il entend par ces termes : « Si une syl-
labe peut être facilement déduite de celles qui
la précèdent, c’est qu’elle apporte peu d’infor-
mation, au sens de Shannon ; si, au contraire,
elle est difficilement prédictible, elle en
apporte beaucoup. » Prenons un exemple
tiré du français courant pour rendre cette
définition plus concrète. Si vous lisez le mot
« parce », il y a fort à parier que la syllabe sui-
vante sera « que » : le simple fait de pouvoir
la prédire avec une quasi-certitude signifie
que sa densité d’information est quasi nulle.
Deux stratégies
Toutes les langues n’encodent pas la même
quantité moyenne d’informations – mesu-
rée en bits – dans chacune de leurs syllabes.
« La densité moyenne d’information des dif-
férentes langues varie sur un intervalle allant
de 5,03 bits par syllabe, pour le japonais, à
8,02 bits, pour le vietnamien », indique Fran-
çois Pellegrino. Que le japonais ait une den-
sité moyenne d’informations d’environ
5 bits par syllabe signifie que prédire quelle
sera la syllabe suivante à partir de celles qui
l’ont précédée revient à faire le bon choix
parmi 32 (2^5 ) possibilités ; en vietnamien,
cela revient à faire le bon choix parmi
256 (2^8 ) possibilités ; c’est donc 8 fois plus
facile à faire pour le japonais que pour le
vietnamien. En d’autres termes, la densité
d’informations du japonais est 8 fois plus
faible que celle du vietnamien.
Or, l’étude menée par le laboratoire
Dynamique du langage sur les 17 langues
choisies a montré que ces deux paramètres,
débit de paroles (mesuré en nombre de syl-
labes par seconde) et densité d’information
(mesuré en bits par syllabe), variaient en
sens inverse. Un débit de paroles plus
important s’accompagne systématique-
ment d’une densité d’informations plus
faible, et vice versa. Et il en résulte un phé-
Selon les langues, le débit de paroles, mesuré en nombre de syllabes prononcées par seconde,
varie quasiment du simple au double. Photo Shutterstock
production ou le traitement d’un débit
d’informations trop important) et connaî-
trait le même sort. Ce seuil de 39 bits par
seconde correspond donc à une niche à la
fois biologique et culturelle, qui définit la
zone de viabilité des langues humaines.
Cette vision des langues est d’autant plus
fascinante que celles-ci, loin d’être figées,
évoluent sans cesse au cours du temps.
Comme le montre clairement une précé-
dente étude du même laboratoire lyonnais
(lire ci-dessous), il peut arriver que de nou-
veaux sons apparaissent, par exemple, par
l’ajout de voyelles nasales (« an », « in »,
« on », etc.) qui vient doubler le nombre de
voyelles total dont dispose une langue. Plus
de sons e t donc plus d e syllabes a ugmentent
la densité d’information d’une langue.
Quitte à la faire dévier de sa niche de 39 bits
par seconde? Non, répond François Pelle-
grino. « Notre hypothèse est que, chaque fois
qu’un changement dans la structure d’une
langue a modifié sa densité syllabique d’infor-
mation, ce changement a également conduit
ses locuteurs à modifier en sens inverse leur
débit de parole, afin de préserver un débit
d’information optimal. » Un mécanisme
darwinien qui ressemble beaucoup à la
façon dont les espèces vivantes, soumises
aux lois de l’évolution, s’adaptent pour ne
pas mourir.n
Plus de sons et donc plus
de syllabes augmentent
la densité d’informations
d’une langue.
o
LA PUBLICATION
Un accélérateur de
particules pour papyrus!
L
e mystère des papyrus d’Herculanum sera-t-il
bientôt percé? Petit rappel des faits : en 79
après J.-C., l’éruption du Vésuve, qui fige
Pompéi dans la lave, recouvre aussi de cendres la ville
voisine d’Herculanum. Or Pison, beau-père de Jules
César et homme de grande culture, y a une villa dans
laquelle sont conservés 1.838 rouleaux de papyrus
d’une valeur inestimable. Ils sont exhumés en 1752 et
bientôt offerts par le roi de Naples à Napoléon, qui les
entrepose à l’Institut de France où ils se trouvent
toujours. Problème : la cendre, qui les a conservés
à l’abri de l’air et donc des ravages du temps, les a aussi
carbonisés, les rendant plus friables que des ailes
de papillon. Impossible de les dérouler sans
les réduire en poussière. Mais c’était sans compter
sur les progrès de la technologie. Les papyrus
d’Herculanum viennent en effet de quitter les rives
de la Seine pour l’A ngleterre où les attendait une
énorme machine. Le Diamond Light Source est
un accélérateur de particules du type synchrotron,
c’est-à-dire un anneau de 560 mètres de
circonférence qui, en faisant tourner des électrons
à la vitesse de la lumière, émet un rayonnement
électromagnétique ultra-puissant. Grâce à lui, les
scientifiques seront pourront reconstruire une image
en 3D de ce qui se trouve à l’intérieur des papyrus
enroulés sur eux-mêmes. L’intelligence artificielle
convertira ensuite cette image 3D en texte lisible.
Pison va enfin nous montrer ses trésors. —Y. V.
D
ans un article paru en mai dernier, la revue
« Nature » livre les résultats d’une étude
chiffrée sur la performance scientifique des
pays européens. Si l’on considère la production
scientifique rapportée à la population, la France
se classe bonne dernière de l’Europe des 15 (celle
d’avant 2004). Parmi les pays ayant depuis rejoint
l’Union, la République tchèque, l’Estonie et la Croatie
ont une meilleure production que nous. Par ailleurs,
dans ce même numéro sont identifiés les gagnants
et les perdants – en termes nets, c’est-à-dire une fois
défalquées les contributions de chaque pays au pot
commun – des financements européens. Ceux-là
favorisent les petits pays, car l’obligation, dans
certains projets, d’associer les équipes de plusieurs
Etats les favorise mécaniquement. Ainsi, à
l’exception des Pays-Bas, les 13 premiers du
classement sont des nations à la population réduite.
Les deux seuls pays de grande taille encore
bénéficiaires, respectivement classés aux 14 e et
15 e rangs, sont l’Espagne et le Royaume-Uni, mais
l’on peut supposer que ce dernier verra sa situation
se dégrader à cause du Brexit. La France est le pays
le plus perdant de l’Europe des 15, et ne surclasse
que des pays de l’ancien bloc de l’Est. Elle ne touche
que 75 % de sa mise. Ces données sont confortées
par celles de l’analyse de Clarivate sur les leaders
de la recherche, identifiés par le nombre de citations
de leurs publications. La France est huitième, avec
seulement 2,8 % des leaders mondiaux. Une chose
intéressante étant que peu de chercheurs étrangers
ont une adresse en France, tandis que beaucoup
de chercheurs français de très haut niveau ont
maintenant une adresse à l’étranger, où ils font leurs
recherches. L’impossibilité de cumuler progression
de carrière et primes pour leurs performances crée,
chez les plus performants de nos chercheurs, des
frustrations qui ne sont pas sans conséquences pour
le dynamisme du pays. Inutile de se voiler la face :
aucune des enquêtes diffusées internationalement,
accessibles à tous, ne montre pour la France une
évolution favorable de sa recherche et en particulier
de sa recherche médicale. Il serait temps que cela
devienne une priorité de l’Etat!
Didier Raoult est professeur de microbiologie
à la faculté de biologie de Marseille.
LA
CHRONIQUE
de Didier Raoult
Recherche en
Europe : la France
lanterne rouge
L’énigme des sons « f » et « v »
Une équipe du laboratoire lyonnais Dynami-
que du langage, réunie autour de Dan Dediu,
a validé une intuition qu’avait eue, dans les
années 1980, le linguiste américain Charles
Hockett. Ce dernier avait remarqué que
les consonnes dites labiodentales – le « f » et
le « v » –, n’existaient que chez les peuples
ayant accès à des aliments mous. Au terme
d’une enquête de plusieurs années qui a mêlé
analyse statistique, modèle biomécanique
et données phylogénétiques, Dan Dediu et les
coauteurs de l’étude parue au printemps
dernier dans la revue « Science » ont validé
ce point. Les consonnes labiodentales sont
apparues dans la grande famille des langues
indo-européennes (plus de 1.000 langues !)
plus tard que les autres sons, il y a entre 6.
et 3.500 ans. Et leur apparition a été la consé-
quence de l’invention de l’agriculture, qui a
substitué aux aliments abrasifs consommés
par les chasseurs-cueilleurs telles les racines,
d’autres denrées plus molles, comme le pain
ou le fromage. Un changement alimentaire
qui a modifié la position des incisives. Alors
que, chez les enfants et les adultes des popula-
tions pratiquant l’agriculture, les incisives du
haut sont un peu en avant sur celles du bas,
chez les chasseurs-cueilleurs, l’usure des dents
fait que cet écart disparaît. Or, le modèle bio-
mécanique utilisé dans l’étude a montré que,
avec des incisives du haut alignées sur celles
du bas, l’effort musculaire à fournir pour
prononcer les sons « f » et « v » était de 29 %
plus élevé que la normale. Plus coûteux
sur le plan énergétique, ces sons ne sont donc
pas apparus dans les langues des chasseurs-
cueilleurs. « Notre étude montre comment un
changement culturel a entraîné un changement
biologique qui a entraîné un changement
linguistique », résume Dan Dediu.
nomène tout à fait remarquable. C’est que si
l’on considère à présent le débit d’informa-
tions d’une langue, défini comme le produit
des deux paramètres ci-dessus, celui-ci
s’avère constant en tout point du globe : il
s’établit à environ 39 bits p ar seconde. S i dis-
semblables soient-elles, qu’elles sonnent
rapidement ou lentement à nos oreilles,
toutes les langues parlées à la surface de la
Terre véhiculent, dans un laps de temps
donné, la même quantité d’informations.
« Une bonne façon de voir les choses, com-
mente François Pellegrino, consiste à dire
que, pour être efficaces en termes de transmis-
sion d’informations, les langues ont le choix
entre deux stratégies opposées : soit elles privi-
légient un débit de paroles élevé au prix d’une
faible densité d’informations, soit elles font
l’inverse. » A cet égard, le français est une
langue « moyenne », située à peu près à
équidistance des deux extrêmes tant pour le
débit de paroles (6,85 syllabes par seconde)
que pour la densité d’informations ( 6,68 bits
par syllabe). Ce qui lui permet, lui aussi,
d’atteindre un débit d’informations proche
de 39 bits par seconde.
Un mécanisme darwinien
Que cette dernière valeur soit universelle
signifie sans doute qu’elle ne doit rien au
hasard, mais elle est étroitement contrainte
par nos capacités cognitives et la façon dont
notre cerveau traite le langage. Une langue
qui s erait très en deçà de ce seuil de 39 bits par
seconde ne permettrait pas à ses locuteurs de
faire face à la complexité du monde et serait
vite éliminée. Si elle le dépassait, elle surchar-
gerait leurs capacités cognitives (il nous est
impossible de maintenir en permanence la
Des débits
de paroles
variables
en Europe
(En syllabes
par seconde)
lEspagnol : 7 ,
lItalien : 7 ,
lFrançais : 6 ,
lAnglais : 6 ,
lAllemand : 6 ,