Tribu iA/Papers. Sesión 5 - CLIP y DALL·E 2
¿Cómo aprenden los modelos de visión a partir del lenguaje?
En esta sesion de Tribu IA/Papers nos vamos al origen de dos avances que cambiaron el juego en la IA multimodal:
Por un lado, CLIP – Learning Transferable Visual Models From Natural Language Supervision
¿Puede un modelo aprender a reconocer imágenes leyendo descripciones?
CLIP lo logra: fue entrenado con 400 millones de pares imagen-texto tomados de internet, sin necesidad de etiquetas manuales. Esto le permite clasificar imágenes sin haber visto nunca esas clases durante el entrenamiento. Es como si hubiera aprendido el lenguaje de las imágenes leyendo la web.
Además, CLIP entrena con contraste: junta imágenes con sus descripciones reales y falsas, y aprende a distinguirlas. Un modelo capaz de entender "lo que ve" y "lo que lee", y que aún hoy es base para muchas arquitecturas modernas.
Y por otro lado, DALL·E 2 – Hierarchical Text-Conditional Image Generation with CLIP Latents
Un paso más allá: si CLIP entendía imágenes, DALL·E 2 las genera a partir de texto. DALL·E 2 combina el poder de CLIP para entender el lenguaje con modelos de difusión que crean imágenes espectaculares.
Primero genera una representación latente de la imagen (usando CLIP) y luego la transforma en una imagen realista.
Gracias a esto, puede dibujar desde "un zorro azul leyendo un periódico" hasta "una catedral futurista flotando en el espacio".
¿Estamos más cerca de tener una imaginación artificial?
Las sesiones de Papers con las personas que ganaron el fellowship de 4 meses son los miércoles cada 15 días.
Todo el mundo puede conectarse por YouTube Live para seguirlas.
📚 Prepárate leyendo los papers o escuchando sus correspondientes podcasts.
📝 Regístrate para recibir el link al live de YouTube.
Agradecemos a nuestros patrocinadores Riscco y Softserve por hacer estos espacios posibles.
Al registrarte, aceptas nuestra Política de tratamiento de datos.