Le Monde - 18.09.2019

ÉVÉNEMENT LE MONDE·SCIENCE & MÉDECINE MERCREDI 18 SEPTEMBRE 2019 | 5

« UNE PART DE LA CONNAISSANCE

SCIENTIFIQUE PRODUITE

N’EST PAS RENDUE VISIBLE »

B

runo Strasser, biologiste et historien des sciences, professeur à l’université de Genève (Suisse) et de Yale (EtatsUnis), est l’auteur de Collec ting Experiments, Making Big Data Biology (University of Chi cago Press, 392 p., non traduit).

Le monde scientifique fait face à une avalanche de données numériques, appelées « big data ». Ce concept estil si nouveau? Non, le big data, qui évoque tout autant une quantité massive de données qu’une surcharge informationnelle à traiter, est évoqué depuis des siècles dans le monde scientifique. Dans son livre Too Much to Know (Yale Uni versity Press, 2011), l’historienne Ann Blair décrit comment, sub mergés par les quantités d’infor mations écrites, les savants de la Renaissance inventaient des classements de bandelettes de papiers sur des crochets thémati ques. Même sentiment de sub mersion des naturalistes au XVIe siècle quand les bateaux du Nouveau Monde reviennent avec dix fois plus d’espèces, plan tes et animaux, que celles alors connues en Europe. Au XVIIe, Lei bnitz se plaint devant cette masse grandissante d’ouvrages, désespéré à l’idée qu’on n’arri vera plus à tout lire...

Ces époques de « big data » sontelles régulières dans l’histoire? Ces moments où surgit le senti ment d’explosions de données s’inscrivent dans des périodes historiques particulières de dé couvertes, d’accélération techno logique, etc. Bien sûr, les quanti tés de données sont moins im portantes que celles évoquées aujourd’hui avec le numérique, mais cela reste massif si on regarde le rapport entre quanti tés accessibles et capacité de l’époque à les traiter.

Certaines sciences ontelles été plus rapidement touchées? Cela concerne, au départ, des sciences dites de collection – his toire naturelle, paléontologie, ar chéologie –, et les données se re trouvent dans des musées, jardins botaniques ou bibliothè ques. Chaque tradition scientifi que va ensuite s’adapter au cours des siècles. Au XIXe, dans les scien ces expérimentales, en physique ou en biologie par exemple, on mesure et on produit du chiffre en grande quantité. Au XXe siècle, l’impact le plus emblématique d’un nouvel outil est le CERN, qui produit des masses de données qui n’existaient pas avant les années 1950.

L’accès aux données n’est pas simple, estce nouveau pour le monde scientifique? En 1953, le grand naturaliste Ernst Mayr a édicté, dans un livre de bonnes pratiques, les normes et valeurs de son champ. Aux fu turs naturalistes, il dit : si vous collectez quelque chose, référen cezla bien et rendezla accessible publiquement, en la donnant à un musée, par exemple. Puis, s’adressant aux musées : il faut que tout le monde puisse avoir accès à ces données. Vous en êtes les dépositaires, la collection vous appartient, mais paradoxale ment pas les éléments qui la com posent. L’idée était aussi d’éviter

que le spécimen soit enfermé dans le bureau du curateur, qui en tire un profit tout personnel en écrivant une monographie. Ce sont ces règles, tout comme les échanges de spécimens entre mu sées à des visées de recherche, qui ont permis à l’histoire naturelle de grandir. Le Musée de zoologie des vertébrés en Californie, créé en 1900, est réutilisé actuelle ment pour comprendre les ques tions du changement climatique.

Quel est le changement avec les données numériques? Ce qui a changé, c’est qu’il sem ble n’y avoir personne derrière cette collection de données, pas une figure humaine. Au XIXe siè cle, l’anatomiste George Cuvier, responsable des collections à la galerie de paléontologie du Mu séum national d’histoire natu relle, recevait énormément de données sous formes d’osse ments, de descriptions d’organis mes. Les personnes qui les lui en voyaient du monde entier avaient confiance en l’utilisation qu’il al lait en faire. Aujourd’hui, ce rap port personnel a disparu, tout comme, d’une certaine façon, la figure du curateur. Les données sont prises, traitées par des algo rithmes, quelque part dans des serveurs, on ne sait pas très bien où, on ne sait pas qui s’en sert et à quelle fin. On a juste découvert qu’il y a désormais deux types de données personnelles captées, nos actes intentionnels (achats, messages envoyés, mesures et in dicateurs de santé...) et nos traces numériques (les effets secondai res de nos actes, comme le type de lieu qu’on aime fréquenter, nos préférences de lecture...).

Une collection dont les ci toyens comme le monde scien tifique ont du mal à connaître l’ampleur et qui se constitue sans leur volonté propre... Exactement. Les questions que les GAFA et autres acteurs numé riques nous posent en perma nence, nous y répondons tout le temps sans jamais qu’elles nous soient posées explicitement. La seule question à laquelle nous répondons, c’est que nous accep tons de signer cette longue liste de conditions générales, un peu compliquée, que personne ne lit. Cela va un peu mieux depuis quelque mois avec le RGPD [Rè glement général sur la protec tion des données, appliqué dans l’Union européenne depuis mai 2018], mais, de fait, nous si gnons quand même ce document tel un chèque en blanc. D’une cer taine façon, ces nouveaux collec tionneurs ne disent pas leur nom.

La situation actuelle n’estelle pas liée à un déséquilibre de pouvoir, les GAFA étant dans les premières capitalisa tions boursières mondiales? Les grandes collections de don nées se sont toujours trouvées dans de grands lieux de pouvoir, telles les grandes villes d’empi res économiques ou coloniaux, Paris, Londres, Berlin, New York... Là où les données du monde en tier étaient récoltées. Mais mal gré tout existait, parfois sous condition certes, une réciprocité visàvis de la recherche. Cette base de réciprocité s’est brisée aujourd’hui, nous sommes dans un autre monde. Ce qui aurait dû être un bien commun, ces traces numériques que nous laissons

collectivement comme utilisa teur d’Internet, n’en sont pas. Même pour des scientifiques qui veulent les étudier pour la com préhension du monde et la connaissance commune, sans visée commerciale.

Avec quelles conséquences, selon vous? Voyez le débat, dans les années 1980, quand on a commencé à breveter des gènes à cause des changements législatifs, notam ment aux EtatsUnis. Les argu ments avancés pour contrer ce mouvement n’ont pas été seule ment une appropriation illégi time de quelque chose qui devrait appartenir aux communs, mais aussi un frein à la production de connaissance. Regardez actuelle ment 23andMe : cette société vend des kits pour analyser un certain nombre de vos mar queurs génétiques. Ils gardent en suite ces données et les agrègent avec d’autres. Le fait que la plus grande collection de génomes humains ne soit pas dans la sphère publique mais chez 23andMe pose question.

Voyezvous d’autres consé quences pour la recherche? Le numérique a un impact énorme dans la société. Il suffit de prendre le métro pour voir qu’une majorité de personnes sont sur leurs smartphones en permanence. Une partie de nos vies se passent dans ces espa ceslà, mais les scientifiques n’ar rivent pas à bien les analyser car ils n’ont pas accès aux données. Les algorithmes qui nous don nent de l’information nous orien tent dans des niches de plus en plus étroites pour capter notre at tention. De fait, nous ne vivons déjà tous plus dans le même monde, mais dans des mondes différents qui se sont récemment polarisés. Un seul exemple : On ne peut pas comprendre pour quoi une Hispanique vote pour Trump si on ne peut pas analyser ce qu’elle a vu sur les réseaux sociaux. Les données collectées par toutes ces platesformes ont une valeur scientifique et intel lectuelle très forte, car leur étude permettrait de mieux compren dre le monde social, politique, épidémiologique, etc.

Ces données sont rendues intelligibles par une multitude de chercheurs académiques qui passent dans des structu res privées. Estce nouveau? Une analogie pour éclairer ce qui se passe aujourd’hui se trouve dans les travaux de l’historien de la physique Peter Galisson qui s’est penché sur le thème de la connaissance pendant la guerre froide. A l’époque, constatetil, les universités et le monde acadé mique publient énormément, mais cela ne représente qu’une infime partie de la connaissance produite pendant cette pério delà. L’essentiel est produit par les militaires, par l’industrie, et cette connaissance n’est jamais rendue publique. La configura tion actuelle est complètement différente mais le résultat s’en rapproche : nous avons une quan tité inimaginable de données et de connaissance produite sur nos habitudes sociologiques, politi que, économique, notre rapport à la santé... Cette connaissance n’est pas rendue visible. propos recueillis par l. be.

question sur la situation de monopole de la
société pour laquelle vous travaillez, ce n’est pas
faisable. Il est donc très important de maintenir
un tissu académique fort, à la fois pour la diver
sité et le partage de la recherche mais aussi pour
la formation des étudiants. »
Autre conséquence, une influence sur la pro
duction de connaissances pour le bien com
mun : « Il y a toujours des très bons chercheurs
qui restent dans le milieu académique, mais les
travaux qui sont faits dans ces grands groupes
restent fermés la plupart du temps. Soit ils ne
sont jamais publiés, soit les données ne sont
jamais publiées. Une sorte d’asymétrie entre
recherche publique et recherche privée s’est ins
tallée », note David Chavalarias.
Afin d’endiguer la fuite des cerveaux, Antoine
Petit est favorable, pour le CNRS, à un statut
mixte de chercheur miacadémique, misalarié
d’une entreprise, fréquent au Canada et aux
EtatsUnis. Mais il reconnaît qu’un problème
apparaît alors. « Ces personnes ont une position
ambiguë et ne peuvent pas prétendre s’exprimer
uniquement comme scientifiques », estimetil.
Parmi les « stars » du monde des données, le
Français Yann Le Cun, prix Turing 2019, se
partage entre l’université de New York et Face
book ; et l’Américain Michael Jordan entre Ber
keley et Amazon, pour lequel il travaille depuis
mars 2019 une journée par semaine.
Même quand les chercheurs restent dans le
monde académique, la difficulté à obtenir des
données peut générer un réflexe très humain :
ne pas scier la branche sur laquelle on est assis.
« De plus en plus de financements viennent des
GAFA et de grandes entreprises qui proposent à
certains laboratoires des moyens importants et
des accès privilégiés à leur base de données »,
note David Chavalarias, qui a notamment tra
vaillé sur les données textuelles massives des
contributions au grand débat. « Cela ne veut pas
dire qu’ils vont faire de la mauvaise recherche.
Mais des travaux qui seraient de l’ordre de la
critique ou de la réflexion sur ces données et l’uti
lisation des algorithmes ne se feront probable
ment pas », avancetil.
Pour s’émanciper des problèmes d’accès aux
données, certains se sont tournés vers celles
rendues accessibles par Twitter, dont la politi
que est plus ouverte. Résultat, c’est la plate

LES ENTREPRISES NUMÉRIQUES ONT RECRUTÉ MASSIVEMENT, MONDIALEMENT ET AU PRIX FORT DES SCIENTIFIQUES POUR FAIRE PARLER LES INFORMATIONS CAPTÉES CHEZ LEURS UTILISATEURS

forme numérique qui a généré, depuis 2010, le plus de publications scientifiques (quelques milliers par an), alors qu’elle est 10 et 20 fois plus petite respectivement qu’Instagram ou Facebook (139 millions d’usagers actifs contre 1 milliard et 2,3 milliards).

« Un problème de société » Pour Antoine Petit, « nous avons un problème de société. Une bonne partie de ces données relèvent du bien commun, qui n’appartient ni à Google, ni à Facebook, ni à aucune autre entreprise numéri que ». Ou alors, poursuit le directeur du CNRS, « cela signifierait, comme dans un scénario de sciencefiction, que nous avons changé de mo dèle et que les grands acteurs ne sont plus les pays ou les nations mais des représentants du monde économique ». Quelle piste explorer pour trouver une parade scientifique? « Heureusement, une partie des données ne sont pas chez les GAFA, et le fait que la France soit un pays très centralisé a, pour une fois, un avantage, estime Antoine Petit. Un ob jectif pourrait être de faire, à l’image du “health data hub” [plateforme d’exploitation des don nées de santé], de grands entrepôts de données publiques, accessibles gratuitement pour le milieu académique, dans des conditions préfé rentielles pour les startup, et dans des condi tions extrêmement encadrées pour les grands acteurs. » Il s’agit, au bout du compte, com mente le dirigeant du CNRS, « de favoriser l’utili sation de ces données pour des progrès qui puis sent bénéficier à tout le monde ». laure belot

Salle de stockage de données au data center de Facebook situé aux abords
du cercle polaire arctique, à Lulea (Suède). DAVID LEVENE/EYEVINE/BUREAU233

Le Monde - 18.09.2019

Get our desktop app

Company

Features

Documentation

Resources