Решаем задачу Action Recognition
Аннотация
Доклад посвящен обзору современных методов Action Recognition с акцентом на задачу Temporal Action Recognition в видео. Я рассмотрю теоретические основы различных подходов, от CNN-based до SSL backbone в купе с ActionFormer. Особое внимание уделено практическому решению конкретного кейса на складе Wildberries. Я покажу преимущества и минусы разных подходов и рекомендации по выбору архитектуры в зависимости от специфики задачи.
Содержание (предварительное)
- Теоретические основы Action Recognition
- Temporal Action Recognition как ключевая задача
- Практический кейс и его решение
- Архитектурные решения и метрики, включая разные эксперименты по VideoMAEv2, ActionFormer, EVR, итд
- Практическая значимость
- Заключение