Un blog de l'hyperfiction intitulée "La disparition du Général Proust" : Général Proust, Les écrits de Marc Hodges, Vie sexuelle de M H, Jean-Pierre Balpe, Un roman de Marc Hodges, Les inédits de Marc Hodges, Le journal de Charlus, Les poèmes de JPB, Le premier album photo de Marc Hodges, Le second album photo de Marc Hodges, L'album photo de JPB, Le carnet d'Oriane, Les poèmes érotiques de MH à G, Les écrits de Jean-Pierre Balpe"… Extrait du roman La Toile (ed. Cylibris)

28 octobre 2006

Cryptologies

Brisbane, dimanche 27/12/2015, 10:31:49

Le professeur Amraoti, des Universités de Sidney, Tokyo et Le Cap, directeur du plus réputé forum de linguistes du web, aime bien travailler de bonne heure avant que l’agitation de sa famille et de la maison ne le dérange. Un de ses collègues, le professeur Carver, de Londres, lui a fait parvenir une grande quantité de textes qu’il ne parvient pas à déchiffrer. Ce travail, surhumain dans la structure ancienne d’un laboratoire de recherche, devient, grâce au forum, relativement simple. Les membres du forum, nombreux, représentant de multiples spécialités linguistiques, travaillant ensemble des quatre coins du monde, repèrent très vite, soit par un survol rapide, soit, le plus souvent, à l’aide des logiciels d’identification que chacun a mis au point, les langues dont ils sont spécialistes.

Le principe en est simple, dans chaque langue naturelle les termes — quelle qu’en soit la forme — présentent des fréquences d’usage variables. Certains mots sont très fréquents, d’autres très rares. En français, par exemple, le mot “est” présente une très grande probabilité d’utilisation, le terme “ranche” une très faible. Si donc l’on examine un texte de langue inconnue, il suffit, dans un premier temps, de le faire parcourir en vérifiant s’il contient des termes comme “est, des, un, une, dans, de…”. S’il les contient, il s’agit, presque à coup sûr d’un texte français. Un texte anglais ou espagnol, en effet, ne les contiendra pas. Ces logiciels d’identification sont faciles à mettre au point puisque ne calculant que des chaînes de caractères, sans se soucier de grammaire, ne demandent qu’un vocabulaire témoin très restreint et travaillent donc très rapidement. Aussi, beaucoup de linguistes, pour éviter d’avoir à regarder eux-mêmes de trop grandes quantités de fichiers, les utilisent-ils pour effectuer un premier tri. Dans d’autres cas, les spécialistes utilisent la méthode dite des “pentagrammes” établissant des statistiques à partir des séquences de cinq caractères successifs. La fréquence des répartitions suffit la plupart du temps à “signer” une langue particulière.

Parmi les cinq cents quarante-trois textes envoyés par le professeur Carver, l’ensemble des linguistes a ainsi repéré près d’une centaine de langues : hausa, swahili, yoruba, ibo, sango, tiv, swazi, brahoui, gallois, gurmukhi, latin, occitan, séfarade, tsigane, pashtou, eskimo, guarani, tagalog, chan, maori, mon, amharique, khoïsan, soussou, sarakolé, papamiento, cree, ojibwa, chibcha, guatuso, tlingut, aleout, chamorro… Pour la plupart des langues rares, certaines même résiduelles, souvent dans une transcription phonétique permettant d’utiliser l’alphabet romain; ce qui sans être exceptionnel est assez rare lorsque les textes sont utilisés pour des recherches linguistiques.

“Il semble qu’il y ait là une volonté de cryptage plus qu’un désir de réunir des documents, dicte le professeur Amraoti. En effet, peu de langues sont utilisées plus d’une fois et leur utilisation relève souvent davantage du cryptage que de la traduction. Ces documents présentent, indépendamment des langues dans lesquelles ils sont écrits, des similarités intéressantes qui permettent de les classer en cinq groupes. »