lundi 20 décembre 2010

Culturomics : Comprendre les lois de la culture - Cartographie

Blogs Le Monde

by Hubert Guillaud

La technologie change notre compréhension des sciences humaines et sociales (SHS), comme elle a changé notre compréhension des sciences, expliquait il y a peu Patricia Cohen pour le New York Times. Bien sûr, face à cet objectif, les médias numériques sont des moyens plus qu’une fin, rappelle consciencieusement l’historien Anthony Grafton. Mais pour Brett Bobley, directeur du bureau des humanités numériques de la Dotation nationale des humanités américaines (National Endowment for the Humanities, NEH), l’analyse de quantités sans précédent de données peut révéler de nouvelles caractéristiques et tendances et soulèvent des questions inattendues pour l’étude.

“La technologie a non seulement rendu l’astronomie, la biologie et la physique plus efficaces. Mais elle a permis aux chercheurs de faire des recherches qu’ils ne pouvaient pas faire auparavant”. Et c’est notamment le cas dans le domaine des SHS, où l’accès à de formidables corpus documentaires sous forme informatique peut apporter de nouvelles connaissances. C’est en tout cas, ce que se propose de montrer le concours de Google ou le Digging into data, un programme de subventions pour aider à la recherche en sciences humaines à aller dans de nouvelles directions, propulsées par le bureau de Brett Bobley au NEH.

Les Humanités numériques pour comprendre le monde
Comme bien souvent dans le domaine des Humanités numériques (Digital Humanities), pour les non-spécialistes, ce sont les résultats qui sont les plus intéressants. L’un des projets ayant bénéficié de ce programme est celui de Dan Edelstein, professeur de français et d’italien à l’université de Stanford qui a réalisé une cartographie de la circulation des idées au Siècle des Lumières, en étudiant, avec l’aide de l’informatique, la correspondance des grands penseurs de l’époque (Locke, Newton, Voltaire, Swift, Rousseau, Bentham…). La cartographie interactive mise en place permet de mieux mesurer le réseau relationnel des grands penseurs du XVIIIe siècle et montre qu’il a des structures très différentes selon les penseurs (vidéo). La cartographie a montré par exemple, la rareté des échanges entre Paris et Londres, alors que les historiens pensaient que les penseurs français avaient été inspirés par les penseurs britanniques : dans les faits, les penseurs du Continent semblent avoir peu échangé avec les îles Britanniques.

siecledeslumieres.1291743566.png
Image : La cartographie des échanges de courriers de la république des Lettres au Siècle des Lumières pour quelques-uns des plus importants penseurs de l’époque.

Les universités américaines semblent se mettre activement aux outils numériques. L’université de Virginie a ainsi développé pour ses étudiants une interface web, baptisée Visual Eyes, permettant de réaliser facilement des visualisations dynamiques et interactives.

Digital Mappaemundi est un projet d’étude des cartes et textes géographiques médiévaux, permettant aux chercheurs d’annoter leurs cartes simultanément et de partager leurs annotations avec d’autres, explique Martin Foys K, médiéviste à l’université Drew dans le New Jersey. “Ces cartographies numériques ont le potentiel de transformer les études médiévales”, estime enthousiaste le chercheur, notamment parce qu’elles sont communautaires, c’est-à-dire partagées par un réseau d’experts dont les apports contribuent à la qualité du projet. “La facilité avec laquelle une communauté peut être amenée à collaborer via ces outils est quelque chose qui change fondamentalement la façon dont nous faisons notre travail”. Sauf que la culture du partage n’est pas nécessairement de mise entre les spécialistes, et que bien souvent toutes les fonctions sont loin d’être utilisées par les chercheurs, qui sont plutôt en concurrence les uns les autres sur leurs recherches.

Le phénomène des humanités numériques est encore nouveau et les praticiens sont encore souvent surpris par ce qui se développe. Lorsque les œuvres complètes publiées d’Abraham Lincoln ont été mises en ligne il ya quelques années, le directeur des Cahiers d’Abraham Lincoln, Daniel W. Stowell, s’attendait à ce que les historiens soient plus attentifs à son projet. Mais il a été surpris de découvrir que les plus grands utilisateurs étaient des gens connectés depuis les Presses de l’université d’Oxford : les rédacteurs du dictionnaire d’Oxford étaient allés traquer dans les archives de Lincoln les premières occurrences de certains mots.

“Les gens vont utiliser ces données de manières que nous ne pouvons pas encore imaginer”, s’enthousiasme Daniel Stowell, “et je pense que c’est l’un des développements les plus excitants des sciences humaines actuellement”. Pour Tom Scheinfeldt, directeur du Centre pour l’histoire et les nouveaux médias à l’université George Mason, le milieu universitaire est entré dans une ère “post-théorique”. Un “moment méthodologique” semblable à celui qu’on a connu à la fin du XIXe et au début du XXe siècle. “Les questions pratiques de la construction de la discipline, de l’assemblage d’une bibliographie annotée, de la définition d’un programme de recherche et de la signification du rôle de l’historien” ont alors été les principaux travaux d’un grand nombre de savants. Sommes-nous en train d’entrer dans une phase similaire ? C’est ce qu’espèrent les partisans des humanités numériques en tout cas.

Comprendre l’évolution des lois du langage
C’est dans ce contexte qu’il faut comprendre le nouvel outil que vient de dévoiler Google : Google N-Grams - un nom qui s’inspire des travaux du théoricien de l’information Claude Shannon et qui évoque les n-grammes (des suites de mots consécutifs), visiblement très utilisés par les programmes de traitement automatique du langage. Google N-Grams est moteur de recherche qui fouille dans les 5,2 millions de livres numérisés par Google et accessibles librement au public, explique le New York Times, soit 500 milliards de mots, comme s’en émerveille avec raison Jean Véronis sur son blog, soit “4 % des livres jamais publiés sur Terre”. Un outil qui permet de tracer des courbes lexicales sur plusieurs siècles, puisque la base de livres sur laquelle il est construit est constituée de livres publiés entre 1500 et aujourd’hui, provenant d’un corpus réparti en 5 langues
.

On peut ainsi constater que Marilyn Monroe et Mickey Mouse ne reçoivent pas la même attention dans les livres imprimés … Ou que Freud est devenu une référence plus importante que Galilée, Einstein ou Darwin

“L’objectif est de donner à un enfant de 8ans la possibilité de parcourir les tendances culturelles de l’histoire telle qu’inscrite dans les livres”, a expliqué Erez Lieberman Aiden, un chercheur de Harvard parmi les auteurs provenant du MIT, de Google, de l’Encyclopaedia Britannica et d’Houghton Mifflin Harcourt, signataires de l’article de la revue Science qui fait l’actualité.

Ce nouvel outil va exiger beaucoup de réflexion sur les divers biais dans la façon dont les données sont recueillies, a déclaré le biologiste Paul Ehrlich, dont les enquêtes sur l’évolution de la pirogue polynésienne a transformé les études culturelles, et qui remarque, par exemple, que la fréquence de l’obscénité ne peut pas seule être un indicateur de tendance culturelle.

Culturomics, Genomics… “Il y avait un grand battage autour du projet de cartographie du génome humain à l’origine… Avant qu’on comprenne que cette liste n’était pas très utile à ceux qui n’en sont pas spécialistes”, estime Mark Pagel, biologiste de l’évolution à l’université de Reading. Nous comprenons maintenant que ce n’est pas les gènes qui importent, mais comment ceux-ci sont exprimés dans les organes”.

“Je ne dis pas que les données ne sont pas utiles”, a-t-il précisé. “Mais que la base de données ne va pas “cracher” des réponses simples”. Rien ne sera plus facile en effet, que d’en faire sortir beaucoup de banalités.

Aucun commentaire:

Enregistrer un commentaire