Cover Image for Jeud'IA Saclay 2 - LLMs et Interpétabilité

Presented by

Organisation dédiée à l'éducation, la recherche, et la diffusion d'informations sur les enjeux de l’intelligence artificielle.

Hosted By

Jeud'IA Saclay 2 - LLMs et Interpétabilité

Name: Jeud'IA Saclay 2 - LLMs et Interpétabilité
Start: 2025-01-16T18:00:00.000+01:00
End: 2025-01-16T20:00:00.000+01:00
Location: Centralesupélec - Bâtiment Eiffel Université Paris-Saclay

Centre pour la Sécurité de l'IA

Centralesupélec - Bâtiment Eiffel Université Paris-Saclay

Gif-sur-Yvette, Île-de-France

Past Event

Welcome! To join the event, please register below.

You will be asked to verify token ownership with your wallet.

About Event

Le CeSIA (Centre pour la sécurité de l'IA) et l'association Automatans de CentraleSupélec co-organisent une réunion sur le thème "Grands Modèles de Langue et Interprétabilité", sous l'éclairage les enjeux fondamentaux de la sécurité des intelligences artificielles.

Au programme, deux présentations sur ce sujet, la première par un membre bénévole du CeSIA, et la seconde par un étudiant de CentraleSupélec, suivies de discussions et d'un rafraichissement.

Première présentation : L'Intelligence Artificielle en générale, et les grands modèles de langue à travers les robots conversationnels en particulier, ont envahi pratiquement tous les aspects de la société, qui réclame des garanties de confiance, de robustesse et de sécurité. La satisfaction de ces attentes implique le domaine de l'interprétabilité, qui a pour objectif d'apporter les éléments d'explications sur leur fonctionnement, leur comportement et les résultats générés selon la demande et de contexte. Après une introduction rapide sur l'interprétabilité en général, éclairée par la motivation du besoin de sécurité, les méthodes propres aux LLMs seront abordées, et plus particulièrement la "mechanistic interpretability", théorie et pratique.

Seconde présentation : La puissance des LLMs soulève des questions cruciales sur leur capacité à biaiser ou influencer les utilisateurs de manière subtile. Cette conférence explore un sujet émergent : le "raisonnement machiavélique", c'est-à-dire l’utilisation de mécanismes manipulatoires dans les réponses générées par ces modèles. Cette présentation s’appuiera notamment sur le récent article d’Apollo Research (fin 2024), qui a mis en lumière les mécanismes de manipulation consciente intégrés aux LLMs. Nous étudierons des cas concrets puis nous discuterons des implications de ces découvertes, notamment en termes de régulation, d'interprétabilité et de confiance en ces technologies.

Venez nous retrouver sur le campus de CentralSupélec Paris-Saclay (Amphi III dans le bâtiment Eiffel, au fond de la diagonale, dans la partie dite "vivant") de 18h00 à 20h00 le jeudi 16 janvier.

Les informations pour nous rejoindre.

Location

Centralesupélec - Bâtiment Eiffel Université Paris-Saclay

8 Rue Joliot Curie, 91190 Gif-sur-Yvette, France

Presented by

Centre pour la Sécurité de l'IA

Organisation dédiée à l'éducation, la recherche, et la diffusion d'informations sur les enjeux de l’intelligence artificielle.

Hosted By