BAISH Eventos

Nos encontramos este miércoles para hablar sobre el "Alignment Faking in Large Language Models", del equipo de Anthropic.

Es un artículo muy relevante (OpenPhil lo 

 como ejemplo de una de las areas que les interesa financiar), y trae consigo un video modo podcast y un artículo corto (además del paper). La idea es que vengan con, al menos, el podcast entero escuchado o el artículo entero leído:

En el medio, compartiremos unos cafés mientras charlamos sobre el artículo y otros temas relacionados a AI Safety.

Grupo de Discusión - Alignment Faking in LLMs

Daniel Grimaldi