

Jeud'IA Saclay 3 - Attaques adversariales et interprétabilité
Le CeSIA (Centre pour la sécurité de l'IA) et l'association PIAF de l'Institut Polytechnique de Paris co-organisent une réunion sur le thème "Attaques adversariales et interprétabilité".
Live YouTube : https://youtube.com/live/zE6RGCjtQ-Q
Au programme, deux présentations sur ce sujet, la première par Thomas Winninger, étudiant de 3ème année à Télécom SudParis, et la seconde par Linh Vu membre du PIAF, suivies de discussions et d'un rafraichissement.
Première présentation : Introduction aux différents types d'attaques adversariales: attaques one-pixel, empoisonnement, attaques par évasion. Les modèles de vision sont déployés dans des contextes où la sécurité est vitale, comme la voiture autonome. Pourtant, ces modèles ont de nombreuses vulnérabilités : attaques par évasion, empoisonnement des données, backdoors. Ces comportements surprenants sont intrinsèques à ces modèles qui ne pensent pas comme les humains.
Deuxième présentation : Mécanismes d'attaques et de défenses des LLMs sous le regard de l'interprétabilité mécanique. L'omniprésence des grands modèles de langages (LLM) rend la question de leur sécurité cruciale, d'autant plus que les jailbreaks, le prompt hacking et d'autres techniques d'exploitation ont démontré que ces systèmes, malgré l'effort mis dans leur sécurité, présentent toujours des vulnérabilités significatives. Dans ce contexte, nous verrons comment l'interprétabilité mécanique - l'approche qui permet de comprendre les mécanismes internes de ces modèles, peut nous permettre, non seulement d'éclairer le fonctionnement de ces attaques, mais aussi d'améliorer les méthodes de défense.
Venez nous retrouver dans l'Amphithéâtre Poisson* de l'Ecole Polytechnique de 18h00 à 20h00 le jeudi 10 avril.
* : non, ce n'est pas celui d'avril.