ChatGPT (Open AI) : tests et analyse publié le 17/01/2023

mannequin-320

Image par Gerd Altmann de Pixabay

Dans le cadre du carnet de veille et de valorisation des travaux de recherche sur le numérique dans l’éducation soutenus par la Direction du numérique pour l’éducation (MENJ), Elie Allouche1 partage des tests et entretien hors-série avec l’agent conversationnel ChatGPT, pour analyser les potentialités et limites d’une technologie d’intelligence artificielle.

Bilan intermédiaire et constats généraux suite aux tests

  • Cette technologie est en version bêta (fin 2022, début 2023), elle connaîtra des évolutions et peut présenter des bugs occasionnels nécessitant une reconnexion ;
  • pour l’instant son accès est gratuit mais sans certitude sur le modèle économique à venir ;
  • les réponses peuvent être instantanées ou être générées après quelques dizaines de secondes d’attente, avec un caractère aléatoire : parfois un message d’erreur apparait et nécessite une relance de la question ;
  • elles ne semblent pas reproductibles, même si elles sont posées par un même interlocuteur, et peuvent varier sensiblement (au moins dans leur forme) d’un moment à l’autre ;
  • ce caractère non reproductible à l’identique, et parfois erroné, empêche de voir dans cette technologie un véritable outil de « référence » (au sens où l’on peut s’y référer, pour fonder ou étayer une information), contrairement à ce qui est indiqué dans (R5) ;
  • elles ne sont pas alimentées par une connexion au web en temps réel avec une « connaissance limitée du monde et des événements après 2021 » (ChatGPT, 2022) et les données sur lesquelles elles se fondent ne sont pas exposées de façon complète ou fiable (R4, R5) ;
  • lorsqu’un développement thématique est exposé, elles ne sont pas systématiquement ni précisément sourcées (R6) et n’exposent pas explicitement les critères sur lesquels elles sont fondées (contrairement à une source comme Wikipédia) [1] ;
  • elles peuvent l’être si l’utilisateur le demande expressément, charge à celui-ci cependant de vérifier la pertinence des sources communiquées (R8 à R12) ;
  • elles témoignent de capacités d’argumentation, voire de nuances et de « capacité réflexive » apparente (elles intègrent fréquemment les limites intrinsèques d’une telle technologie – voir notamment en R15 et R16) sur des questions parfois complexes et problématisées, mais présentent un caractère perfectible, peuvent contenir des redites et des contenus erronés ;
  • en cas de réponse erronée, et à supposer que l’utilisateur l’identifie comme telle, l’agent conversationnel peut reconnaître son erreur [2] si on lui oppose, arguments ou références à l’appui, la « bonne » information (des tests complémentaires seront sans doute à prévoir sur ce point) ;
  • lorsqu’une volumétrie est indiquée par l’utilisateur (Q7, Q8) celle-ci n’est pas toujours respectée (R7, R8).

Recommandations

les réponses fournies doivent donc être traitées avec la plus grande vigilance en raison même de la performance technologique affichée – la simulation d’une conversation humaine – et du risque d’argument d’autorité que peuvent constituer les affirmations sur les données massives mobilisées (R3), sans vérification systématique de leur véracité – cette vigilance contre l’argument d’autorité étant par ailleurs une règle générale, et l’un des « outils d’auto-défense intellectuelle » dans le cadre d’une formation à l’esprit critique (Ministère de l’Éducation nationale et de la Jeunesse, 2021).

Malgré ses capacités conversationnelles, informatives et réflexives, certaines de ces limites, si elles sont bien admises par son co-fondateur et PDG (Altman, 2022), génèrent donc à ce jour de nombreuses questions quant aux usages scolaires et universitaires des réponses fournies (Susnjak, 2022 ; Zhai, 2022).

(1) chef de projet recherche appliquée, bureau du soutien à l’innovation numérique et à la recherche appliquée DNE-TN2