


ИИ-статИИ / paper readings - Flash attention
Захващаме Flash Attention 1 & 2. Това са оптимизирани методи за изчисление на attention операцията (част от трансформър архитектурата), които се възползват от различните нива на памет в GPU хардуера и по-точно значително по-голямата скорост на достъп до някои от тях.
Ако не сте били на наша среща преди - събираме се хора, които искат да обменят опит в сферата. Присъстващите са на различни нива на познание, но минимум се изисква интерес към техническите детайли. Ако се чудите - елате най-малко да послушате дискусията.
Срещите се провеждат в г/д свободен формат - един модератор минава по основните точки от статията и всеки може да се включи ако има неясноти или интересни точки за дискусия. Препоръчително е да сте прегледали статията преди това за поне час-два , за да се ориентираме по-лесно по време на срещата.
Фейсбук групата, в която се организираме: https://www.facebook.com/groups/1369557000588976
За хора тепърва навлизащи в сферата - хубаво е да прегледате материали за някои основни концепции за deep learning. Поредицата на 3blue1brown е добър ресурс.
Референтни материали за текущата среща:
(благодарности на Иво, за които)
Статии:
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness - https://arxiv.org/abs/2205.14135
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning - https://arxiv.org/abs/2307.08691
Видеа:
https://www.youtube.com/watch?v=FThvfkXWqtE - Stanford MedAI Flash Attention video (47 min)
https://youtu.be/zy8ChVd_oTM - Umar Jamil - coding Flash attention in Triton (7h38min)
https://github.com/Dao-AILab/flash-attention - Flash attention code
