ÉVÉNEMENT
LE MONDE·SCIENCE & MÉDECINE
MERCREDI 18 SEPTEMBRE 2019 | 5
« UNE PART DE LA CONNAISSANCE
SCIENTIFIQUE PRODUITE
N’EST PAS RENDUE VISIBLE »
B
runo Strasser, biologiste et
historien des sciences,
professeur à l’université
de Genève (Suisse) et de Yale
(EtatsUnis), est l’auteur de Collec
ting Experiments, Making Big
Data Biology (University of Chi
cago Press, 392 p., non traduit).
Le monde scientifique fait
face à une avalanche
de données numériques,
appelées « big data ».
Ce concept estil si nouveau?
Non, le big data, qui évoque
tout autant une quantité massive
de données qu’une surcharge
informationnelle à traiter, est
évoqué depuis des siècles dans le
monde scientifique. Dans son
livre Too Much to Know (Yale Uni
versity Press, 2011), l’historienne
Ann Blair décrit comment, sub
mergés par les quantités d’infor
mations écrites, les savants de la
Renaissance inventaient des
classements de bandelettes de
papiers sur des crochets thémati
ques. Même sentiment de sub
mersion des naturalistes au
XVIe siècle quand les bateaux du
Nouveau Monde reviennent
avec dix fois plus d’espèces, plan
tes et animaux, que celles alors
connues en Europe. Au XVIIe, Lei
bnitz se plaint devant cette
masse grandissante d’ouvrages,
désespéré à l’idée qu’on n’arri
vera plus à tout lire...
Ces époques de « big data »
sontelles régulières dans
l’histoire?
Ces moments où surgit le senti
ment d’explosions de données
s’inscrivent dans des périodes
historiques particulières de dé
couvertes, d’accélération techno
logique, etc. Bien sûr, les quanti
tés de données sont moins im
portantes que celles évoquées
aujourd’hui avec le numérique,
mais cela reste massif si on
regarde le rapport entre quanti
tés accessibles et capacité de
l’époque à les traiter.
Certaines sciences ontelles été
plus rapidement touchées?
Cela concerne, au départ, des
sciences dites de collection – his
toire naturelle, paléontologie, ar
chéologie –, et les données se re
trouvent dans des musées,
jardins botaniques ou bibliothè
ques. Chaque tradition scientifi
que va ensuite s’adapter au cours
des siècles. Au XIXe, dans les scien
ces expérimentales, en physique
ou en biologie par exemple, on
mesure et on produit du chiffre
en grande quantité. Au XXe siècle,
l’impact le plus emblématique
d’un nouvel outil est le CERN, qui
produit des masses de données
qui n’existaient pas avant les
années 1950.
L’accès aux données n’est pas
simple, estce nouveau pour
le monde scientifique?
En 1953, le grand naturaliste
Ernst Mayr a édicté, dans un livre
de bonnes pratiques, les normes
et valeurs de son champ. Aux fu
turs naturalistes, il dit : si vous
collectez quelque chose, référen
cezla bien et rendezla accessible
publiquement, en la donnant à
un musée, par exemple. Puis,
s’adressant aux musées : il faut
que tout le monde puisse avoir
accès à ces données. Vous en êtes
les dépositaires, la collection vous
appartient, mais paradoxale
ment pas les éléments qui la com
posent. L’idée était aussi d’éviter
que le spécimen soit enfermé
dans le bureau du curateur, qui en
tire un profit tout personnel en
écrivant une monographie. Ce
sont ces règles, tout comme les
échanges de spécimens entre mu
sées à des visées de recherche, qui
ont permis à l’histoire naturelle
de grandir. Le Musée de zoologie
des vertébrés en Californie, créé
en 1900, est réutilisé actuelle
ment pour comprendre les ques
tions du changement climatique.
Quel est le changement
avec les données numériques?
Ce qui a changé, c’est qu’il sem
ble n’y avoir personne derrière
cette collection de données, pas
une figure humaine. Au XIXe siè
cle, l’anatomiste George Cuvier,
responsable des collections à la
galerie de paléontologie du Mu
séum national d’histoire natu
relle, recevait énormément de
données sous formes d’osse
ments, de descriptions d’organis
mes. Les personnes qui les lui en
voyaient du monde entier avaient
confiance en l’utilisation qu’il al
lait en faire. Aujourd’hui, ce rap
port personnel a disparu, tout
comme, d’une certaine façon, la
figure du curateur. Les données
sont prises, traitées par des algo
rithmes, quelque part dans des
serveurs, on ne sait pas très bien
où, on ne sait pas qui s’en sert et à
quelle fin. On a juste découvert
qu’il y a désormais deux types de
données personnelles captées,
nos actes intentionnels (achats,
messages envoyés, mesures et in
dicateurs de santé...) et nos traces
numériques (les effets secondai
res de nos actes, comme le type de
lieu qu’on aime fréquenter, nos
préférences de lecture...).
Une collection dont les ci
toyens comme le monde scien
tifique ont du mal à connaître
l’ampleur et qui se constitue
sans leur volonté propre...
Exactement. Les questions que
les GAFA et autres acteurs numé
riques nous posent en perma
nence, nous y répondons tout le
temps sans jamais qu’elles nous
soient posées explicitement. La
seule question à laquelle nous
répondons, c’est que nous accep
tons de signer cette longue liste
de conditions générales, un peu
compliquée, que personne ne lit.
Cela va un peu mieux depuis
quelque mois avec le RGPD [Rè
glement général sur la protec
tion des données, appliqué dans
l’Union européenne depuis
mai 2018], mais, de fait, nous si
gnons quand même ce document
tel un chèque en blanc. D’une cer
taine façon, ces nouveaux collec
tionneurs ne disent pas leur nom.
La situation actuelle n’estelle
pas liée à un déséquilibre
de pouvoir, les GAFA étant
dans les premières capitalisa
tions boursières mondiales?
Les grandes collections de don
nées se sont toujours trouvées
dans de grands lieux de pouvoir,
telles les grandes villes d’empi
res économiques ou coloniaux,
Paris, Londres, Berlin, New York...
Là où les données du monde en
tier étaient récoltées. Mais mal
gré tout existait, parfois sous
condition certes, une réciprocité
visàvis de la recherche. Cette
base de réciprocité s’est brisée
aujourd’hui, nous sommes dans
un autre monde. Ce qui aurait dû
être un bien commun, ces traces
numériques que nous laissons
collectivement comme utilisa
teur d’Internet, n’en sont pas.
Même pour des scientifiques qui
veulent les étudier pour la com
préhension du monde et la
connaissance commune, sans
visée commerciale.
Avec quelles conséquences,
selon vous?
Voyez le débat, dans les années
1980, quand on a commencé à
breveter des gènes à cause des
changements législatifs, notam
ment aux EtatsUnis. Les argu
ments avancés pour contrer ce
mouvement n’ont pas été seule
ment une appropriation illégi
time de quelque chose qui devrait
appartenir aux communs, mais
aussi un frein à la production de
connaissance. Regardez actuelle
ment 23andMe : cette société
vend des kits pour analyser un
certain nombre de vos mar
queurs génétiques. Ils gardent en
suite ces données et les agrègent
avec d’autres. Le fait que la plus
grande collection de génomes
humains ne soit pas dans la
sphère publique mais chez
23andMe pose question.
Voyezvous d’autres consé
quences pour la recherche?
Le numérique a un impact
énorme dans la société. Il suffit de
prendre le métro pour voir
qu’une majorité de personnes
sont sur leurs smartphones en
permanence. Une partie de nos
vies se passent dans ces espa
ceslà, mais les scientifiques n’ar
rivent pas à bien les analyser car
ils n’ont pas accès aux données.
Les algorithmes qui nous don
nent de l’information nous orien
tent dans des niches de plus en
plus étroites pour capter notre at
tention. De fait, nous ne vivons
déjà tous plus dans le même
monde, mais dans des mondes
différents qui se sont récemment
polarisés. Un seul exemple : On
ne peut pas comprendre pour
quoi une Hispanique vote pour
Trump si on ne peut pas analyser
ce qu’elle a vu sur les réseaux
sociaux. Les données collectées
par toutes ces platesformes ont
une valeur scientifique et intel
lectuelle très forte, car leur étude
permettrait de mieux compren
dre le monde social, politique,
épidémiologique, etc.
Ces données sont rendues
intelligibles par une multitude
de chercheurs académiques
qui passent dans des structu
res privées. Estce nouveau?
Une analogie pour éclairer ce
qui se passe aujourd’hui se trouve
dans les travaux de l’historien de
la physique Peter Galisson qui
s’est penché sur le thème de la
connaissance pendant la guerre
froide. A l’époque, constatetil,
les universités et le monde acadé
mique publient énormément,
mais cela ne représente qu’une
infime partie de la connaissance
produite pendant cette pério
delà. L’essentiel est produit par
les militaires, par l’industrie, et
cette connaissance n’est jamais
rendue publique. La configura
tion actuelle est complètement
différente mais le résultat s’en
rapproche : nous avons une quan
tité inimaginable de données et
de connaissance produite sur nos
habitudes sociologiques, politi
que, économique, notre rapport à
la santé... Cette connaissance
n’est pas rendue visible.
propos recueillis par l. be.
question sur la situation de monopole de la
société pour laquelle vous travaillez, ce n’est pas
faisable. Il est donc très important de maintenir
un tissu académique fort, à la fois pour la diver
sité et le partage de la recherche mais aussi pour
la formation des étudiants. »
Autre conséquence, une influence sur la pro
duction de connaissances pour le bien com
mun : « Il y a toujours des très bons chercheurs
qui restent dans le milieu académique, mais les
travaux qui sont faits dans ces grands groupes
restent fermés la plupart du temps. Soit ils ne
sont jamais publiés, soit les données ne sont
jamais publiées. Une sorte d’asymétrie entre
recherche publique et recherche privée s’est ins
tallée », note David Chavalarias.
Afin d’endiguer la fuite des cerveaux, Antoine
Petit est favorable, pour le CNRS, à un statut
mixte de chercheur miacadémique, misalarié
d’une entreprise, fréquent au Canada et aux
EtatsUnis. Mais il reconnaît qu’un problème
apparaît alors. « Ces personnes ont une position
ambiguë et ne peuvent pas prétendre s’exprimer
uniquement comme scientifiques », estimetil.
Parmi les « stars » du monde des données, le
Français Yann Le Cun, prix Turing 2019, se
partage entre l’université de New York et Face
book ; et l’Américain Michael Jordan entre Ber
keley et Amazon, pour lequel il travaille depuis
mars 2019 une journée par semaine.
Même quand les chercheurs restent dans le
monde académique, la difficulté à obtenir des
données peut générer un réflexe très humain :
ne pas scier la branche sur laquelle on est assis.
« De plus en plus de financements viennent des
GAFA et de grandes entreprises qui proposent à
certains laboratoires des moyens importants et
des accès privilégiés à leur base de données »,
note David Chavalarias, qui a notamment tra
vaillé sur les données textuelles massives des
contributions au grand débat. « Cela ne veut pas
dire qu’ils vont faire de la mauvaise recherche.
Mais des travaux qui seraient de l’ordre de la
critique ou de la réflexion sur ces données et l’uti
lisation des algorithmes ne se feront probable
ment pas », avancetil.
Pour s’émanciper des problèmes d’accès aux
données, certains se sont tournés vers celles
rendues accessibles par Twitter, dont la politi
que est plus ouverte. Résultat, c’est la plate
LES ENTREPRISES
NUMÉRIQUES ONT RECRUTÉ
MASSIVEMENT,
MONDIALEMENT ET AU PRIX
FORT DES SCIENTIFIQUES
POUR FAIRE PARLER
LES INFORMATIONS CAPTÉES
CHEZ LEURS UTILISATEURS
forme numérique qui a généré, depuis 2010, le
plus de publications scientifiques (quelques
milliers par an), alors qu’elle est 10 et 20 fois
plus petite respectivement qu’Instagram ou
Facebook (139 millions d’usagers actifs contre
1 milliard et 2,3 milliards).
« Un problème de société »
Pour Antoine Petit, « nous avons un problème de
société. Une bonne partie de ces données relèvent
du bien commun, qui n’appartient ni à Google, ni
à Facebook, ni à aucune autre entreprise numéri
que ». Ou alors, poursuit le directeur du CNRS,
« cela signifierait, comme dans un scénario de
sciencefiction, que nous avons changé de mo
dèle et que les grands acteurs ne sont plus les
pays ou les nations mais des représentants du
monde économique ».
Quelle piste explorer pour trouver une parade
scientifique? « Heureusement, une partie des
données ne sont pas chez les GAFA, et le fait que
la France soit un pays très centralisé a, pour une
fois, un avantage, estime Antoine Petit. Un ob
jectif pourrait être de faire, à l’image du “health
data hub” [plateforme d’exploitation des don
nées de santé], de grands entrepôts de données
publiques, accessibles gratuitement pour le
milieu académique, dans des conditions préfé
rentielles pour les startup, et dans des condi
tions extrêmement encadrées pour les grands
acteurs. » Il s’agit, au bout du compte, com
mente le dirigeant du CNRS, « de favoriser l’utili
sation de ces données pour des progrès qui puis
sent bénéficier à tout le monde ».
laure belot
Salle de stockage de données au data center de Facebook situé aux abords
du cercle polaire arctique, à Lulea (Suède). DAVID LEVENE/EYEVINE/BUREAU233