Les potentialités du texte numérique.

Les usages du texte numérique, la manière de l’exploiter, mieux comprendre les outils analytiques dans ce domaine, autant de bonnes questions posées concernant la bonne pratique de production des contenus dits numériques. Pour mener cette amélioration de la production, il est indispensable de prendre en considération l’entier potentiel offert par le texte numérique.

La contradiction que l’on peut relever dans ce chapitre concernant la recherche de texte informatisée, à quoi bon une machine peut elle porter un sens critique concernant les textes littéraires dans la mesure où elle n’est pas humaine. ?

Ce chapitre remet également en cause l’idée que la société de l’information est génératrice de données que l’on ne peut remettre en cause, comme infaillibles et suprême dans la hiérarchie globale des données. Or l’ordinateur peut se révélé très efficace, grâce à sa nature même, dite « numérique » contrainte uniquement par son utilisateur et aux possibilités hors de notre imagination.

Ce chapitre aborde certaines caractéristiques en premier lieu et certains concepts de base concernant la lecture informatisée.

Le texte numérique :

Passant de 1% en 2008 à 23% en 2014 la croissance des livres numériques aux USA semble être en stabilisation, la consommation de contenus numérique s’installe et se normalise. L’expérience entre le livre numérique et papier ne sont pas les mêmes, cependant les concepteurs cherchent à rassurer les lecteurs en reproduisant au maximum possible les caractéristiques de la version imprimée et ce, même si la version numérique propose d’autres fonctions exclusives, tel que les notes publiques.

La vraie question que l’on va se poser est plutôt : Comment « étudier » et comment « analyser » un texte en prenant en compte les différentes habitudes de consommations (web, print, écran liseuse, tablette, audio etc). On peut rappeler la nature du mot « analyse » qui signifie « décomposition », ce qui est justement dans la nature du numérique, traitant chaque lettre comme entité indépendante et mobile.

Dans un article de 1985 sur le statut épistémologique du texte électronique », de Serge Lusignan, il est décrit les retombées du texte numérique :

« Le texte magnétique ou électronique possède des caractères de flexibilité et de malléabilité qu’ignore le texte imprimé. Les caractères et les mots incrustés dans le papier ne peuvent être ni déplacés, ni ré-ordonnés, ni modifiés, tandis que les caractères et les mots magnétisés sont complètement mobiles. Ce trait propre au texte électronique permet de lui appliquer, grâce à l’ordinateur, différentes procédures algorithmiques de manipulation. »

Il est possible également de découper les textes imprimés, puis organiser chaque occurrence d’un mot clé avec un peu de contexte. La nature même d’un texte numérique en revanche, facilite le découpage et se prête à l’analyse, on parle alors de « L’Affordance » du texte numérique. Cependant, une compréhension de la matière brute du texte semble indispensable pour arriver à ses fins dans l’analyse.

Cet article prend l’exemple de l’alphabet romain, il suffit de 5 bits pour représenter toutes les possibilités (de l’alphabet en lettre majuscule), au fil du temps les jeux de caractères ont progressé pour passer à 16 bits Unicode (UTF- 32 ou jusqu’à 4 294 967 296 possibilités.

Afin de garder une interopérabilité des données entre poste, des standards de caractères sont indispensable et des conventions sont mises en place.

Il en va de même pour les formats de documents, plus un format est complexe, plus le logiciel de traitement est simple, plus le format durera, surtout pour les formats « propriétaires ». Le fondateur du Projet Gutenberg, à privilégier le format texte brut pour sa collection de textes du domaine public qui comprend aujourd’hui quelques 40 000 titres. Le format ouvert ePub (qui utilise en partie le même balisage HTML que pour les pages web) s’est établi comme meilleur format pour la diffusion de textes numériques, surtout pour la mise en page flexible qui facilite l’affichage multiplateformes sur des écrans de tailles très différentes (Smartphone, tablette, liseuse, ordinateur, etc.) L’ePub encode les caractères et la structure de base des textes, mais ne représente pas de façon standardisée d’autres détails textuels et méta textuels. Donc les chercheurs et archivistes soucieux de capter une gamme beaucoup plus large de détails préfèrent la Text Encoding Initiative (TEI), un langage XML qui permet de décrire les caractéristiques sémantiques d’un texte plutôt que sa présentation (qu’une séquence de mots exprime un titre de livre, par exemple, et non seulement un bloc quelconque à représenter en italique).

La lecture informatisée

Ce paragraphe traite de la recherche de mots dans un livre ou un document numérique, en utilisant la fonction « rechercher » dans un software, une opération que la page imprimé ne peut faire. Ces fonctions simple ne sont pas négligeables, elle permettent en effet de mieux comprendre des idées communes dans un corpus de texte, les fonctions d’analyse de texte sont accessibles à tous, de plus, ces fonctions permette de faire des découvertes, l’un des premier principe de la recherche savante. C’est John Unsworth qui parle de méthodologie dans les sciences humaines. En effet la recherche de mot clé peut s’avéré étonnamment complexe. ……….

Les graphiques linéaires peuvent être très puissants pour visualiser les données « comparatives » (comme les fréquences relatives), et il en va de même pour les données « associatives » en réseau. Si l’on veut examiner la collocation des termes — autrement dit la proximité des termes —, on peut utiliser les concepts précédents de recherche, comptage et comparaison pour créer une constellation de termes à haute fréquence qui ont tendance à paraître ensemble. On pourrait vouloir examiner le réseau de mots liés (par proximité) à « monsieur » et « madame » : quels mots sont les plus associés à l’un ou l’autre de nos mots clés ? Quels mots sont associés aux deux ? Le graphique nous suggère que « mari », « dieu » et « fille » sont plus associés à « madame », alors que « maître », « comédie » et « philosophie » sont plus associés à « monsieur », et enfin que « comtesse », « vicomte » et « oui » sont associés aux deux (entre autres). Encore une fois, les associations ne sont pas concluantes en soi, mais le graphique peut nous mener à poser des questions qui ne nous seraient pas venues à l’esprit autrement.

Plusieurs outils sont disponibles pour la lecture et l’analyse informatisées mais, à quelques exceptions près, il s’agit de variantes des procédures élémentaires présentées ici : la recherche, le comptage, la comparaison et l’association. La préparation des données textuelles peut être très exigeante (et souvent quelques compétences de programmation s’avèrent indispensables, surtout les langages de script comme Python, Ruby et PHP. Mais des outils comme Voyant Tool démontrent qu’il est possible de prendre plusieurs documents dans des formats variés (texte brut, MS Word, PDF, etc.), de les ajouter à l’outil et de commencer à lire, à explorer et à analyser. Ces activités diverses représentent les atouts des textes numériques.

Conclusion

Les textes numériques nous sont omniprésents, mais nous ne les connaissons que très peu. Ce chapitre dépeint la nature des textes numériques et surtout montre comment la décomposition de l’information en unités discrètes nous permet d’élargir le sens de la lecture au-delà du texte séquentiel pour inclure la recherche, le comptage, la comparaison et l’association. Il est alors essentiel de comprendre le rôle de l’informatique dans l’entreprise littéraire : elle peut nous aider à répondre à des questions quantitatives, mais celles-ci ont tendance à être banales et à manquer de contexte. Le vrai potentiel du texte numérique réside en sa capacité de faire proliférer les représentations des textes et de nous amener à poser de nouvelles questions interprétatives.

Leave a Reply Cancel reply