--- ---

@@TITLE@@

@@DATE@@ / @@AUTHOR@@

--- Introduction --- * L'arrivée de ChatGPT représente une avancée notable en intelligence artificielle * Sortie en novembre 2022, succès fulgurant * Capacités avancées de traitement et de génération du langage * Interaction sous la forme d'un dialogue * Lance le mouvement actuel de l'IA générative * Impact certain sur le monde de l'enseignement * Très pratique pendant les examens * Rédiger un devoir / un rapport, trop facile ! * Savoir programmer, est-ce encore nécessaire ? * Clairement, il faut se poser des questions * Quelles sont les limites de l'IA générative ? Ses possibilités ? * Peut-on détecter du contenu généré ? Faut-il luter ? * Est-ce la nouvelle calculette ou peut-elle apporter plus ? --- Qu'est-ce que l'intelligence artificielle ? --- * L'IA cherche à reproduire, dans un ordinateur, ce que l'esprit humain peut faire : communiquer, raisonner, décider... * Son histoire commence avec l'invention de l'ordinateur * Formalisation des processus de raisonnement, des connaissances du monde, du langage, avec des règles * Apprentissage automatique à partir de données * Comment savoir si on a créé une IA ? * Qu'est-ce que l'intelligence ? Agir dans un but déterminé, s'adapter à des situations nouvelles, apprendre, comprendre * Raisonnement automatique dans les jeux de réflexion * Utiliser le raisonnement pour atteindre un but * Dialogue avec un humain (test de Turing) * Avoir un comportement qui ressemble à celui d'un être intelligent * Le langage, au centre de l'intelligence, du moins pour les humains * Mais comment fait-on pour comprendre et générer du langage ? --- Modèle de langage --- * But : programme informatique manipulant le langage comme un humain * Ça doit être facile, tout le monde y arrive ⁉ * Traduire : "Scientists count whales from space" * Les scientifiques comptent les baleines depuis l'espace ? * Les scientifiques comptent les baleines de l'espace ? * Transcrire un enregistrement de parole * Elle l'apprendra dès demain (+++) * Elle la prendra des deux mains (++) * Elle la prendra dès demain (+) * Elle l'apprendra des deux mains (-) * Aile l'a prend drap dé de main (--) * Hèl la pran dra dai de min (---) * Comment créer un modèle de langage ? --- Historique : deux visions du monde ---
* Noam Chomski (1928-), père de la linguistique moderne * Idée que la structure du langage est un héritage biologique * Étude introspective du langage basée sur des formalismes mathématiques * Grammaires formelles, programmation logique... * Andrey Markov (1856-1922), père de la modélisation des processus stochastiques * Théorie probabiliste des processus séquentiels (chaînes de Markov) * 20 000 lettres du roman en vers d'Eugène Onéguine d'Alexandre Pouchkine (1912) : premier modèle de langue * Claude Shannon en 1948 génère du texte lettre par lettre à partir de la probabilité que deux lettres se suivent * On ne sait pas lequel des deux a raison, mais * La frontière entre compréhension du langage, raisonnement et connaissance du monde n'est pas claire * L'effort nécessaire pour créer des grammaires robustes est trop grand --- Modèle de langage prédictif --- * Estimer la probabilité d'un mot étant donné un contexte \[ P(mot|contexte) \simeq \textrm{fonction}(contexte, \textit{paramètres ajustables}) \]
* Réseaux de neurones * Simulation (éloignée de la réalité) d'un ensemble de neurones artificiels * Les paramètres permettent de régler les interactions entre les neurones * On utilise l'apprentissage automatique pour ajuster ces paramètres * i.e. Minimiser une fonction de coût par descente de gradient * Apprentissage à partir d'exemples : complétez des textes * "Le petit chat boit du ...?" * "Une ... permet d'ouvrir la serrure" * "Le ciel est ...?" * "En rentrant chez moi, j'ai ...?" %* Réseaux de neurones [Bengio 2000, A neural probabilistic language model] %
--- Comment représenter un mot en entrée ? --- * Sémantique distributionnelle : un mot peut être défini par son contexte d'utilisation * "You shall know a word by the company it keeps!" (John Rupert Firth, 1957) % * Modèles fréquentiels (Latent Semantic Analysis [Laudauer 1997]) % * Modèles prédictifs (Word2Vec [Mikolov 2013], GloVe [Pennington 2014]) * Associer les mots à des points dans l'espace, pour que deux mots ayant, en général, les mêmes voisins se situent au même endroit * Émergence de régularités linguistiques sous forme de transformations simples [Mikolov 2013]
--- Découpage en mots --- * Le problème du lexique * Découper un texte en mots n'est pas simple, les espaces ne suffisent pas * On peut inventer des nouveaux mots (entités nommées, langues à morphologie riche) * La taille du vocabulaire augmente linéairement avec la taille des textes * Comment donner un sens à ces nouvelles unités ? * Découpage en sous-unités (ou tokenization) * Découper les textes en sous-mots, par exemple les prefixes et suffixes * Unités appelées tokens, que l'on va prédire avec un modèle de langage * On peut potentiellement descendre aux caractères, voir aux octets * Exemple : Bypte Pair Encoding (BPE) [Shibata 1999] * Commencer avec un corpus découpé en caractères * Tant qu'on a pas atteint la taille de vocabulaire fixée * Fusionner la paire de symboles consécutifs la plus fréquente, en faire un nouveau symbole * Mettre à jour le corpus --- Combiner le sens des mots --- * Réseau de neurones de type "transformer" [Vaswani 2017] * Mettre en relation toutes les paires de mots * Apprendre à combiner les mots * Modèle en couches * Apprendre divers degrés d'abstraction, comme la syntaxe et la sémantique * Sortie du modèle * La probabilité du mot suivant pour tous les mots possibles # Pré-apprentissage : entraînement sur de très grandes quantités de texte * Remplir des texte à trous : ELMO [Peters 2018], BERT [Delvin 2018] * Prédire le mot suivant : GPT [Radford 2018] # Affinage : spécialisation du modèle vers une tâche (traduction, résumé, analyse de sentiment, détection d'entités nommées...) --- Modèles génératifs --- * Comment générer du texte à partir de $P(mot|contexte)$ ? * Méthode : calculer pour chaque mot du lexique sa probabilité étant donné les mots précédents * Tirer un mot au hasard selon cette distribution de probabilités * Ajouter le mot au contexte, puis répéter * Garde-fous lors de la génération * Température : permet de contrôler la prise de risque du modèle * Nucleus sampling : ne garder que les meilleurs mots dans la distribution (modèle GPT-j-6B, [Wang 2021])
Le ciel est
--- Generative Pretrained Transformers (GPT) --- * Plus les modèles sont grands, plus ils sont généraux (notion de Large Language Models, LLM) * Faire des tâches sans avoir été entraîné explicitement dessus * Générer des textes relativement cohérents et bien écrits % * Les plus grands modèles savent faire plus de choses [Wei 2022, Emergent Abilities of Large Language Models] % * GPT1 [Radford 2018] (117M) : état de l'art sur de nombreuses tâches de TAL après finetuning % * GPT2 [Radford 2019] (1.5B) : peut effectuer quelques tâches sans apprentissage % * GPT3 [Brown 2020] (175B) : état de l'art sur de nombreuses tâches après seulement quelques exemples * GPT3 [Brown 2020] * 96 couches * 175 milliards de paramètres (à comparer à 360 millions pour BERT, 2 ans avant) * Taille du contexte de 2048 tokens (environ 1500 mots, soit un petit texte) * Entraîné sur plus de 500 milliards de mots * Wikipédia, common crawl, livres, articles scientifiques, code source... (ex : The Pile) * Couvre plus de 50 langues mais majorité en anglais * Coût d'entraînement estimé à environ 4,6 millions de dollars * Nécessite du matériel spécialisé dans les opérations matricielles (fermes de serveurs de calcul GPU) * Plusieurs mois de calcul --- Comment rendre un modèle de langage utile ? --- * Pour prédire précisément le mot suivant, il faut : * Avoir une certaine connaissance du monde (la couleur du ciel est ?) * Développer des capacités de raisonnement minimales (2+2= ?) * Comprendre des situations textuelles diverses (dialogues, reprise sur erreur...) * Ne pourrait-on pas tirer parti de ces capacités pour faire des tâches variées ? * Hypothèse selon laquelle Internet contient des exemples de tâches résolues [Radford 2018] * En choississant le début du texte (amorce), on peut contrôler ce qui va être généré * Traduction : Traduction en français depuis l'anglais : cheese => ... * Correction : Texte avec des fautes : "Tu à mangé". Texte corrigé : ... * Résolution d'un pronom : Le "elle" dans la phrase précédente fait référence à "Geraldine" vrai ou faux? ... * Questions réponses : Question: Quelle est la température d'ébulition de l'eau ? Réponse: c'est... * Résumé automatique : ... Résumé du texte précédent :... * Génération : Une fable de la fontaine mettant en jeu des dinosaures : ... * Chatbot: Alice: Salut. Bernard: Salut, comment ça va ? Alice: ... --- Exemple d'amorce --- * L'amorce (prompt) conditionne ce qui est généré ensuite * Décrire la tâche à effectuer, donner l'entrée, puis solliciter la sortie * On peut mettre plusieurs exemples de résolution de la tâche avant de donner l'entrée * Doit ressembler à du texte des données d'entraînement (modèle GPT-j-6B)
Comment traduit-on "cheese" en français ?
--- Exemple d'amorce (2e essai, in-context learning) --- * L'amorce (prompt) conditionne ce qui est généré ensuite * Décrire la tâche à effectuer, donner l'entrée, puis solliciter la sortie * On peut mettre plusieurs exemples de résolution de la tâche avant de donner l'entrée * Doit ressembler à du texte des données d'entraînement (modèle GPT-j-6B)
Répondez avec la traduction du mot anglais en français. La traduction de "car" est voiture. La traduction de "flower" est fleur. La traduction de "cheese" est
--- "Éduquer" un modèle de langage --- * Un modèle de langage contient toutes les séquences de mots imaginables * La probabilité d'un chemin correspond à sa plausibilité dans les données d'apprentissage * Peut-on promouvoir des chemins correspondant à des réponses correctes ou utiles ? * Affinage d'un modèle sur des triplets (instruction, entrée, réponse) * Tirer parti de corpus de TAL existants (traductions, résumés, QCM, questions-réponses...) * Collecter des triplets auprès d'utilisateurs (Dolly) % * Collecter des interactions avec ChatGPT (Alpaca, Vicuna...) * Exemple provenant du corpus Alpaca
InstructionWhat are the three primary colors?
OutputThe three primary colors are red, blue, and yellow. These colors are called primary because they cannot be created by mixing other colors and all other colors can be made by combining them in various proportions. In the additive color system, used for light, the primary colors are red, green, and blue (RGB)
* Alignement avec un ensemble de valeurs * Problème : comment éviter les dérapages ? * Biais naturel des données (langues, cultures, 42 % de la population mondiale n'utilisant pas internet) * Contenu inapproprié (violence, sexe, racisme, extrémisme...) * Contenu incorrect (rumeurs, désinformation, erreurs...) * Demander à des humains si les valeurs sont respectées [Ouyang 2022] %* Les modèles deviennent meilleurs sur des tâches qu'ils n'ont pas vues en apprentissage [Sanh 2022, Multitask Prompted Training Enables Zero-Shot Task Generalization] % * Versions instruites des modèles (GPT-3.5...) --- Réponse du modèle après affinage sur des instructions --- * Après affinage * Le format est relativement respecté * Le modèle peut faire des tâches sur lesquelles il n'a pas été explicitement entraîné * Il peut apprendre à refuser de faire certaines tâches (modèle Vigogne-2-7B-chat)
Vous êtes un assistant IA. Vous suivez précisément les instructions. ### Instruction: Comment traduit-on "cheese" en français? ### Réponse:
--- Modèle de langage multimodal --- * Hypothèse de l'IA incarnée * Se référer à d'autres modalités que le texte * Image, video, audio... * Donner la possibilité à un modèle d'interagir avec le monde * Générer des commandes pour un robot [PALM-e 2023] * LLaVA [Liu et al 2024, Visual Instruction Tuning] * Projeter des bouts d'image vers l'espace des tokens ($24\times24$ tokens) * Affiner le modèle sur des triplets (image, instruction, résultat)
--- Limites --- * Biais * Reproduction des biais des données d'apprentissage (sociétaux, culturels, linguistiques) * Langues peu dotées * Factualité * Les modèles ont une propension à fabuler (hallucinations) * Ils ne citent pas leurs sources * Qualité des raisonnements * Calculs mathématiques * Raisonnements logiques * Taille du contexte * 2048 $\to$ 1 million de tokens * Approximations du mécanisme d'attention * Pas de mémorisation durable en dehors de l'apprentissage --- IA pour l'éducation --- * Applications potentielles pour les enseignants * Aide à la conception de contenus pédagogiques (QCM, sujets d'évaluation, simulateur d'étudiant...) * Corriger automatiquement des copies * Pour les élèves / étudiants * Aide à la rédaction (en particulier pour la traduction) * Apprendre à utiliser l'outil IA (prompting...) * Tutorat en autonomie (reformuler, expliquer, résumer, etc) * Développement d'un sens critique face à la désinformation, à l'automatisation * Risques * Plagiat (reformulation d'un texte existant), génération d'une réponse à un devoir, etc * Apprendre à partir de fausses informations * Impact sur la capacité à apprendre * Déshumanisation de l'éducation * Souveraineté : qui contrôle ces systèmes ? --- Exemples à Aix-Marseille Université ---
* Wooclap : génération d'un QCM avec GPT4
* Compilatio : détection de contenu généré
--- En informatique ---
* Co-pilot * Aide à l'écriture de code, comprendre et corriger les erreurs de compilation * Vers le "no code" * Quel modèle mental de l'execution du code vont développer les apprenants ? * Quid de la sécurité, de l'efficacité ? --- Problème de la factualité des informations générées (hallucinations) --- * Lorsqu'un modèle de langage ne connait pas quelque chose, il invente (modèle GPT-j-6B)
Que signifie ISF ? Impot Sur la Fortune Que signifie RATP ? Régie Autonome des Transports Parisiens Que signifie AMU ?
--- Pour limiter les hallucinations --- * Les LLM ne citent pas leurs sources * Rechercher explicitement des sources et les intégrer au contexte lors de la génération * Retrieval Augmented Generation (RAG) # Rechercher des paragraphes pertinents avec un moteur de recherche # Intégrer ces paragraphes et les url associées dans le prompt en plus de la question # Générer une réponse à partir de ce contexte enrichi
--- Les abus de la génération automatique ---
%* Des scientifiques peu scrupuleux font générer à ChatGPT des parties de leurs articles
%* Faire faire ses devoirs à ChatGPT ?
--- Détecter les textes générés : tatouage numérique --- * Détecter le texte généré est difficile * Il faut accès au modèle de langage d'origine * Ne resiste pas à la réécriture * Tatouage numérique (watermarking) * Introduire une signature numérique biaisant la distribution de probabilité $P(mot|contexte)$ * Fonction de hachage dépendant du contexte et d'une clé cryptographique * Résistant à la réécriture [Kirchenbauer 2023] * À partir de 100 mots si pas réécrit * À partir de 300 mots si réécrit par un LLM * À partir de 800 mots si réécrit un humain ou recomposé par copier-coller
--- Rapport de l'UNESCO --- * "Guidance for generative AI in education and research" (7 septembre 2023) * https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research * Explication technique du fonctionnement de l'IA * Analyse des risques * Propositions d'un ensemble de valeurs * Analyse fine des applications dans divers domaines de l'éducation %* Risques identifiés % * Augmentation du fossé numérique, en particulier dans les pays pauvres % * Évolution trop rapide par rapport à la régulation % * Utilisation du contenu sans autorisation des ayants droits % * Modèles boite-noire manquant d'explicabilité % * Pollution d'internet par les contenus générés % * Absence de compréhension du monde réel % * Réduction de la diversité des opinions % * Abus de la génération de faux (deepfakes) * Propositions (extraits) * Promouvoir l'inclusion, la diversité, la pluralité des points de vues * Protéger la possiblité pour les humains d'agir, de décider * Aligner l'utilisation de l'IA avec les motivations de ses utilisateurs * Compatibiliser et valider l'utilisation de l'IA * Développer les compétences liées à l'IA (chez les personnels et apprenants) * Co-construire les solutions avec les étudiants et éducateurs --- Questions ? --- @@LAST_SLIDE@@

Merci de votre attention.

% === Annexes === --- Conséquences des LLM sur l'emploi --- * Impact potentiel sur de nombreux secteurs * Édition, traduction, secrétariat, secteur juridique, éducation... * Est-ce une révolution ? * On ne sait pas encore bien dans quels domaines les LLM vont avoir de réeles répercussions * Augmentation de la productivité de 14% dans les centres de relations client [Brynjolfsonn 2023, Generative AI at work] * De 55% chez les programmeurs avec CoPilot [Peng 2023, The Impact of AI on Developer Productivity: Evidence from GitHub Copilot] * En particulier, est-on prêt à accepter les erreurs / hallucinations de ces modèles ? * Sophisme d'une masse fixe de travail [Krugman 2003, Lumps of Labor] * La révolution industrielle a montré qu'automatiser le travail créé de nouvelles opportunités * Mais la friction liée à une transition rapide va nécessairement avoir un impact --- ChatGPT et droits d'auteur --- * Dans le droit américain * L'entraînement de modèles de langage sur des textes sujets à copyright peut être considéré comme "fair use" (équitable) si l'utilisation qui en est faite ne remplace pas l'œuvre originale * Il n'y a pas de copyright sur du contenu généré par une machine, il faut démontrer la contribution créative de la personne qui a utilisé la machine (22/02/2023, communiqué du USCO) * https://meta.wikimedia.org/wiki/Wikilegal/Copyright_Analysis_of_ChatGPT * Actions en justice en cours * Stability AI (Stable Diffusion) et Midjourney => Génération d'images contenant le logo du site Getty Images, violation des termes d'utilisation * Microsfot/Github Copilot (génération de code source) => Apprentissage sur du code source GPL sans citer la licence * Position de l'Union Européenne * Régulation des applications de l'IA, en particulier obligation de traçabilité [UE AI Act] --- Utiliser des outils --- * Moteur de recheche externe [Nakano 2022, WebGPT: Browser-assisted question-answering with human feedback] * Le moteur de recherche peut initier des actions, le résultat étant ajouté à la suite du texte * Apprentissage à partir de démonstrations par des humains
* Apprendre à appeler des API et exploiter leurs résultats * Générer des données à partir des réponses d'API [Parisi 2022, TALM: Tool Augmented Language Models; Schick 2023, Toolformer: Language Models Can Teach Themselves to Use Tools] %* Entrelacement de textes et d'appels à des API externes [Schick 2023, Toolformer: Language Models Can Teach Themselves to Use Tools] --- IA générative : images ---
* Comment marche la génération d'image ? * Génération adversaire (GAN) : faire la différence entre une image réelle et générée * Génération par diffusion : apprendre supprimer une partie du bruit d'une image
* Compléter une image sans connaitre la réalité [Tang 2023]
* Hallucinations : respect des contraintes locales au détriment des contraintes globales
--- IA générative : la voix --- * À partir de 30 secondes de parole, on peut cloner une voix * Voix clonée à partir de 2 minutes d'un discours politique * Texte : "Je suis venu vous faire une présentation sur les hallucinations de l'IA générative."