Le Monde - 18.09.2019

(Ron) #1
ÉVÉNEMENT
LE MONDE·SCIENCE & MÉDECINE
MERCREDI 18 SEPTEMBRE 2019 | 5

« UNE PART DE LA CONNAISSANCE


SCIENTIFIQUE PRODUITE


N’EST PAS RENDUE VISIBLE »


B


runo Strasser, biologiste et
historien des sciences,
professeur à l’université
de Genève (Suisse) et de Yale
(Etats­Unis), est l’auteur de Collec­
ting Experiments, Making Big
Data Biology (University of Chi­
cago Press, 392 p., non traduit).

Le monde scientifique fait
face à une avalanche
de données numériques,
appelées « big data ».
Ce concept est­il si nouveau?
Non, le big data, qui évoque
tout autant une quantité massive
de données qu’une surcharge
informationnelle à traiter, est
évoqué depuis des siècles dans le
monde scientifique. Dans son
livre Too Much to Know (Yale Uni­
versity Press, 2011), l’historienne
Ann Blair décrit comment, sub­
mergés par les quantités d’infor­
mations écrites, les savants de la
Renaissance inventaient des
classements de bandelettes de
papiers sur des crochets thémati­
ques. Même sentiment de sub­
mersion des naturalistes au
XVIe siècle quand les bateaux du
Nouveau Monde reviennent
avec dix fois plus d’espèces, plan­
tes et animaux, que celles alors
connues en Europe. Au XVIIe, Lei­
bnitz se plaint devant cette
masse grandissante d’ouvrages,
désespéré à l’idée qu’on n’arri­
vera plus à tout lire...

Ces époques de « big data »
sont­elles régulières dans
l’histoire?
Ces moments où surgit le senti­
ment d’explosions de données
s’inscrivent dans des périodes
historiques particulières de dé­
couvertes, d’accélération techno­
logique, etc. Bien sûr, les quanti­
tés de données sont moins im­
portantes que celles évoquées
aujourd’hui avec le numérique,
mais cela reste massif si on
regarde le rapport entre quanti­
tés accessibles et capacité de
l’époque à les traiter.

Certaines sciences ont­elles été
plus rapidement touchées?
Cela concerne, au départ, des
sciences dites de collection – his­
toire naturelle, paléontologie, ar­
chéologie –, et les données se re­
trouvent dans des musées,
jardins botaniques ou bibliothè­
ques. Chaque tradition scientifi­
que va ensuite s’adapter au cours
des siècles. Au XIXe, dans les scien­
ces expérimentales, en physique
ou en biologie par exemple, on
mesure et on produit du chiffre
en grande quantité. Au XXe siècle,
l’impact le plus emblématique
d’un nouvel outil est le CERN, qui
produit des masses de données
qui n’existaient pas avant les
années 1950.

L’accès aux données n’est pas
simple, est­ce nouveau pour
le monde scientifique?
En 1953, le grand naturaliste
Ernst Mayr a édicté, dans un livre
de bonnes pratiques, les normes
et valeurs de son champ. Aux fu­
turs naturalistes, il dit : si vous
collectez quelque chose, référen­
cez­la bien et rendez­la accessible
publiquement, en la donnant à
un musée, par exemple. Puis,
s’adressant aux musées : il faut
que tout le monde puisse avoir
accès à ces données. Vous en êtes
les dépositaires, la collection vous
appartient, mais paradoxale­
ment pas les éléments qui la com­
posent. L’idée était aussi d’éviter

que le spécimen soit enfermé
dans le bureau du curateur, qui en
tire un profit tout personnel en
écrivant une monographie. Ce
sont ces règles, tout comme les
échanges de spécimens entre mu­
sées à des visées de recherche, qui
ont permis à l’histoire naturelle
de grandir. Le Musée de zoologie
des vertébrés en Californie, créé
en 1900, est réutilisé actuelle­
ment pour comprendre les ques­
tions du changement climatique.

Quel est le changement
avec les données numériques?
Ce qui a changé, c’est qu’il sem­
ble n’y avoir personne derrière
cette collection de données, pas
une figure humaine. Au XIXe siè­
cle, l’anatomiste George Cuvier,
responsable des collections à la
galerie de paléontologie du Mu­
séum national d’histoire natu­
relle, recevait énormément de
données sous formes d’osse­
ments, de descriptions d’organis­
mes. Les personnes qui les lui en­
voyaient du monde entier avaient
confiance en l’utilisation qu’il al­
lait en faire. Aujourd’hui, ce rap­
port personnel a disparu, tout
comme, d’une certaine façon, la
figure du curateur. Les données
sont prises, traitées par des algo­
rithmes, quelque part dans des
serveurs, on ne sait pas très bien
où, on ne sait pas qui s’en sert et à
quelle fin. On a juste découvert
qu’il y a désormais deux types de
données personnelles captées,
nos actes intentionnels (achats,
messages envoyés, mesures et in­
dicateurs de santé...) et nos traces
numériques (les effets secondai­
res de nos actes, comme le type de
lieu qu’on aime fréquenter, nos
préférences de lecture...).

Une collection dont les ci­
toyens comme le monde scien­
tifique ont du mal à connaître
l’ampleur et qui se constitue
sans leur volonté propre...
Exactement. Les questions que
les GAFA et autres acteurs numé­
riques nous posent en perma­
nence, nous y répondons tout le
temps sans jamais qu’elles nous
soient posées explicitement. La
seule question à laquelle nous
répondons, c’est que nous accep­
tons de signer cette longue liste
de conditions générales, un peu
compliquée, que personne ne lit.
Cela va un peu mieux depuis
quelque mois avec le RGPD [Rè­
glement général sur la protec­
tion des données, appliqué dans
l’Union européenne depuis
mai 2018], mais, de fait, nous si­
gnons quand même ce document
tel un chèque en blanc. D’une cer­
taine façon, ces nouveaux collec­
tionneurs ne disent pas leur nom.

La situation actuelle n’est­elle
pas liée à un déséquilibre
de pouvoir, les GAFA étant
dans les premières capitalisa­
tions boursières mondiales?
Les grandes collections de don­
nées se sont toujours trouvées
dans de grands lieux de pouvoir,
telles les grandes villes d’empi­
res économiques ou coloniaux,
Paris, Londres, Berlin, New York...
Là où les données du monde en­
tier étaient récoltées. Mais mal­
gré tout existait, parfois sous
condition certes, une réciprocité
vis­à­vis de la recherche. Cette
base de réciprocité s’est brisée
aujourd’hui, nous sommes dans
un autre monde. Ce qui aurait dû
être un bien commun, ces traces
numériques que nous laissons

collectivement comme utilisa­
teur d’Internet, n’en sont pas.
Même pour des scientifiques qui
veulent les étudier pour la com­
préhension du monde et la
connaissance commune, sans
visée commerciale.

Avec quelles conséquences,
selon vous?
Voyez le débat, dans les années
1980, quand on a commencé à
breveter des gènes à cause des
changements législatifs, notam­
ment aux Etats­Unis. Les argu­
ments avancés pour contrer ce
mouvement n’ont pas été seule­
ment une appropriation illégi­
time de quelque chose qui devrait
appartenir aux communs, mais
aussi un frein à la production de
connaissance. Regardez actuelle­
ment 23andMe : cette société
vend des kits pour analyser un
certain nombre de vos mar­
queurs génétiques. Ils gardent en­
suite ces données et les agrègent
avec d’autres. Le fait que la plus
grande collection de génomes
humains ne soit pas dans la
sphère publique mais chez
23andMe pose question.

Voyez­vous d’autres consé­
quences pour la recherche?
Le numérique a un impact
énorme dans la société. Il suffit de
prendre le métro pour voir
qu’une majorité de personnes
sont sur leurs smartphones en
permanence. Une partie de nos
vies se passent dans ces espa­
ces­là, mais les scientifiques n’ar­
rivent pas à bien les analyser car
ils n’ont pas accès aux données.
Les algorithmes qui nous don­
nent de l’information nous orien­
tent dans des niches de plus en
plus étroites pour capter notre at­
tention. De fait, nous ne vivons
déjà tous plus dans le même
monde, mais dans des mondes
différents qui se sont récemment
polarisés. Un seul exemple : On
ne peut pas comprendre pour­
quoi une Hispanique vote pour
Trump si on ne peut pas analyser
ce qu’elle a vu sur les réseaux
sociaux. Les données collectées
par toutes ces plates­formes ont
une valeur scientifique et intel­
lectuelle très forte, car leur étude
permettrait de mieux compren­
dre le monde social, politique,
épidémiologique, etc.

Ces données sont rendues
intelligibles par une multitude
de chercheurs académiques
qui passent dans des structu­
res privées. Est­ce nouveau?
Une analogie pour éclairer ce
qui se passe aujourd’hui se trouve
dans les travaux de l’historien de
la physique Peter Galisson qui
s’est penché sur le thème de la
connaissance pendant la guerre
froide. A l’époque, constate­t­il,
les universités et le monde acadé­
mique publient énormément,
mais cela ne représente qu’une
infime partie de la connaissance
produite pendant cette pério­
de­là. L’essentiel est produit par
les militaires, par l’industrie, et
cette connaissance n’est jamais
rendue publique. La configura­
tion actuelle est complètement
différente mais le résultat s’en
rapproche : nous avons une quan­
tité inimaginable de données et
de connaissance produite sur nos
habitudes sociologiques, politi­
que, économique, notre rapport à
la santé... Cette connaissance
n’est pas rendue visible.
propos recueillis par l. be.

question sur la situation de monopole de la
société pour laquelle vous travaillez, ce n’est pas
faisable. Il est donc très important de maintenir
un tissu académique fort, à la fois pour la diver­
sité et le partage de la recherche mais aussi pour
la formation des étudiants. »
Autre conséquence, une influence sur la pro­
duction de connaissances pour le bien com­
mun : « Il y a toujours des très bons chercheurs
qui restent dans le milieu académique, mais les
travaux qui sont faits dans ces grands groupes
restent fermés la plupart du temps. Soit ils ne
sont jamais publiés, soit les données ne sont
jamais publiées. Une sorte d’asymétrie entre
recherche publique et recherche privée s’est ins­
tallée », note David Chavalarias.
Afin d’endiguer la fuite des cerveaux, Antoine
Petit est favorable, pour le CNRS, à un statut
mixte de chercheur mi­académique, mi­salarié
d’une entreprise, fréquent au Canada et aux
Etats­Unis. Mais il reconnaît qu’un problème
apparaît alors. « Ces personnes ont une position
ambiguë et ne peuvent pas prétendre s’exprimer
uniquement comme scientifiques », estime­t­il.
Parmi les « stars » du monde des données, le
Français Yann Le Cun, prix Turing 2019, se
partage entre l’université de New York et Face­
book ; et l’Américain Michael Jordan entre Ber­
keley et Amazon, pour lequel il travaille depuis
mars 2019 une journée par semaine.
Même quand les chercheurs restent dans le
monde académique, la difficulté à obtenir des
données peut générer un réflexe très humain :
ne pas scier la branche sur laquelle on est assis.
« De plus en plus de financements viennent des
GAFA et de grandes entreprises qui proposent à
certains laboratoires des moyens importants et
des accès privilégiés à leur base de données »,
note David Chavalarias, qui a notamment tra­
vaillé sur les données textuelles massives des
contributions au grand débat. « Cela ne veut pas
dire qu’ils vont faire de la mauvaise recherche.
Mais des travaux qui seraient de l’ordre de la
critique ou de la réflexion sur ces données et l’uti­
lisation des algorithmes ne se feront probable­
ment pas », avance­t­il.
Pour s’émanciper des problèmes d’accès aux
données, certains se sont tournés vers celles
rendues accessibles par Twitter, dont la politi­
que est plus ouverte. Résultat, c’est la plate­


LES ENTREPRISES
NUMÉRIQUES ONT RECRUTÉ
MASSIVEMENT,
MONDIALEMENT ET AU PRIX
FORT DES SCIENTIFIQUES
POUR FAIRE PARLER
LES INFORMATIONS CAPTÉES
CHEZ LEURS UTILISATEURS

forme numérique qui a généré, depuis 2010, le
plus de publications scientifiques (quelques
milliers par an), alors qu’elle est 10 et 20 fois
plus petite respectivement qu’Instagram ou
Facebook (139 millions d’usagers actifs contre
1 milliard et 2,3 milliards).

« Un problème de société »
Pour Antoine Petit, « nous avons un problème de
société. Une bonne partie de ces données relèvent
du bien commun, qui n’appartient ni à Google, ni
à Facebook, ni à aucune autre entreprise numéri­
que ». Ou alors, poursuit le directeur du CNRS,
« cela signifierait, comme dans un scénario de
science­fiction, que nous avons changé de mo­
dèle et que les grands acteurs ne sont plus les
pays ou les nations mais des représentants du
monde économique ».
Quelle piste explorer pour trouver une parade
scientifique? « Heureusement, une partie des
données ne sont pas chez les GAFA, et le fait que
la France soit un pays très centralisé a, pour une
fois, un avantage, estime Antoine Petit. Un ob­
jectif pourrait être de faire, à l’image du “health
data hub” [plate­forme d’exploitation des don­
nées de santé], de grands entrepôts de données
publiques, accessibles gratuitement pour le
milieu académique, dans des conditions préfé­
rentielles pour les start­up, et dans des condi­
tions extrêmement encadrées pour les grands
acteurs. » Il s’agit, au bout du compte, com­
mente le dirigeant du CNRS, « de favoriser l’utili­
sation de ces données pour des progrès qui puis­
sent bénéficier à tout le monde ».
laure belot

Salle de stockage de données au data center de Facebook situé aux abords
du cercle polaire arctique, à Lulea (Suède). DAVID LEVENE/EYEVINE/BUREAU233

Free download pdf