Cover Image for Jeud'IA Saclay 3 - Attaques adversariales et interprétabilité

Presented by

Organisation dédiée à l'éducation, la recherche, et la diffusion d'informations sur les enjeux de l’intelligence artificielle.

Hosted By

Jeud'IA Saclay 3 - Attaques adversariales et interprétabilité

Name: Jeud'IA Saclay 3 - Attaques adversariales et interprétabilité
Start: 2025-04-10T18:00:00.000+02:00
End: 2025-04-10T20:00:00.000+02:00
Location: École Polytechnique

Centre pour la Sécurité de l'IA

École Polytechnique

Palaiseau, Île-de-France

Registration Closed

This event is not currently taking registrations. You may contact the host or subscribe to receive updates.

About Event

Le CeSIA (Centre pour la sécurité de l'IA) et l'association PIAF de l'Institut Polytechnique de Paris co-organisent une réunion sur le thème "Attaques adversariales et interprétabilité".
Live YouTube : https://youtube.com/live/zE6RGCjtQ-Q

Au programme, deux présentations sur ce sujet, la première par Thomas Winninger, étudiant de 3ème année à Télécom SudParis, et la seconde par Linh Vu membre du PIAF, suivies de discussions et d'un rafraichissement.

Première présentation : Introduction aux différents types d'attaques adversariales: attaques one-pixel, empoisonnement, attaques par évasion. Les modèles de vision sont déployés dans des contextes où la sécurité est vitale, comme la voiture autonome. Pourtant, ces modèles ont de nombreuses vulnérabilités : attaques par évasion, empoisonnement des données, backdoors. Ces comportements surprenants sont intrinsèques à ces modèles qui ne pensent pas comme les humains.

Deuxième présentation : Mécanismes d'attaques et de défenses des LLMs sous le regard de l'interprétabilité mécanique. L'omniprésence des grands modèles de langages (LLM) rend la question de leur sécurité cruciale, d'autant plus que les jailbreaks, le prompt hacking et d'autres techniques d'exploitation ont démontré que ces systèmes, malgré l'effort mis dans leur sécurité, présentent toujours des vulnérabilités significatives. Dans ce contexte, nous verrons comment l'interprétabilité mécanique - l'approche qui permet de comprendre les mécanismes internes de ces modèles, peut nous permettre, non seulement d'éclairer le fonctionnement de ces attaques, mais aussi d'améliorer les méthodes de défense.

Venez nous retrouver dans l'Amphithéâtre Poisson* de l'Ecole Polytechnique de 18h00 à 20h00 le jeudi 10 avril.

* : non, ce n'est pas celui d'avril.

Location

École Polytechnique

Rte de Saclay, 91120 Palaiseau, France

Amphithéâtre Poisson - C'est dans le couloir "des nouveaux amphis" du rez-de-chaussée du bâtiment principal, pas très loin de l'accueil. Des indications seront disposées. Vous pouvez utiliser l'application IP Paris Campus disponible sous Android ou IOS (https://www.polytechnique.edu/campus/acces-et-mobilite).

Presented by

Centre pour la Sécurité de l'IA

Organisation dédiée à l'éducation, la recherche, et la diffusion d'informations sur les enjeux de l’intelligence artificielle.

Hosted By