Faut-il avoir peur des LLM ?

Les grands modèles de langage (LLM), comme ChatGPT, reposent sur l'implantation d'un algorithme au nom anglais de "transformer" qui permet des autoapprentissages. Pour caricaturer, il s'agit grosso modo d'une procédure qui s'apparente au jeu du mot caché dans une phrase et qu'il faut deviner. Ce qui se réalise par l'extraction des caractéristiques du mot caché (en fait, un vecteur) dans le texte par un réseau neuronique (perceptron) pouvant avoir plusieurs centaines de couches superposées, ce qui positionne ainsi ce vecteur au sein d'un espace multidimensionnel (ayant des milliers de dimensions) permettant d'en extraire des caractéristiques de manière analogue à une analyse statistique multivariée pour faire une comparaison un peu boiteuse. Sauf que ces modèles lisent des millions de textes contenant autant de "tokens" (le terme utilisé pour nommer les vecteurs) qu'il y a de mots ou de concepts au sein d'une langue, apprenant ainsi à écrire dans cette langue, tout comme à jongler avec des abstractions provenant pour GPT-3 des 175 milliards de paramètres contenus dans le modèle.

Je ne vois dans ces modèles ni une menace ni un système conscient doté de sens commun. Ce n'est pas une panacée. Il ne s'agit que d'un outil informatique. Toutefois, les fonctionnalités offertes par de tels modèles ouvrent la porte, pour qui sait les utiliser, à une accélération fulgurante de la capacité à résumer de manière synthétique, par exemple, des milliers d'articles scientifiques publiés chaque année sur un sujet de recherche donné qu'il serait impossible pour un humain de tout lire. Ces LLM peuvent servir d'accélérateur pour la réflexion des chercheurs au même titre que l'arrivée du Web fut une avancée majeure pour l'accès aux publications scientifiques. Si vous êtes assez vieux, vous devez vous souvenir des efforts qu'il y avait à faire dans les bibliothèques universitaires pour trouver au sein de volumineux annuaires comme les « Biological Abstracts Index » menant vers des milliers de résumés pour identifier les références pertinentes de publications scientifiques réparties trop souvent dans différentes universités? Cela prenait des jours entiers, voire des semaines, pour effectuer une revue de littérature, sans parler des 10¢ qu'il fallait avoir avec soi pour faire des photocopies trop souvent mal cadrées... alors qu'aujourd'hui cela peut s'effectuer du bout des doigts, de chez soi et en très peu de temps. Aussi les LLM ne constituent qu'un nouvel outil capable de condenser efficacement l'information pour effectuer des recherches... ou pour traduire (ce qui constituait l'un des premiers objectifs de leurs concepteurs, voir "Attention Is All You Need" article fondateur, arxiv, juin 2017).

Pour ce qui concerne les critiques concernant la consommation électrique des centaines de GPU ou TPU nécessaires pour leur entraînement, d'ici une décennie la plupart des centres de données seront équipés de processeurs photoniques, consommant une fraction de l'électricité actuellement utilisée... pour une rapidité pouvant atteindre jusqu'à mille fois celle des processeurs électroniques actuels.

https://e2eml.school/transformers.html

bookmark Terme(s) relié(s)

padding Carnet(s) relié(s)

file_copy 217 notes
Numérique et données - Enjeux, leviers et stratégies
file_copy 217 notes
person
Intégré par Équipe En commun, le 10 avril 2023 14:20
category
Intelligence artificielle (IA, ChatGPT, ...), Réfléchir et analyser

Auteur·trice(s) de note

forumContacter l’auteur·trice

Communauté liée

Numérique et données

Communauté Passerelles

Profil En commun

forumDiscuter de la note

Publication

19 janvier 2023

Modification

26 juillet 2023 14:45

Historique des modifications

Licence

Attention : une partie ou l’ensemble de ce contenu pourrait ne pas être la propriété de la, du ou des auteur·trices de la note. Au besoin, informez-vous sur les conditions de réutilisation.

Visibilité

lock_open public