Айдын Абиров
Computer Vision engineer, Wildberries

Решаем задачу Action Recognition

Аннотация

Доклад посвящен обзору современных методов Action Recognition с акцентом на задачу Temporal Action Recognition в видео. Я рассмотрю теоретические основы различных подходов, от CNN-based до SSL backbone в купе с ActionFormer. Особое внимание уделено практическому решению конкретного кейса на складе Wildberries. Я покажу преимущества и минусы разных подходов и рекомендации по выбору архитектуры в зависимости от специфики задачи.

Содержание (предварительное)

- Теоретические основы Action Recognition

- Temporal Action Recognition как ключевая задача

- Практический кейс и его решение

- Архитектурные решения и метрики, включая разные эксперименты по VideoMAEv2, ActionFormer, EVR, итд

- Практическая значимость

- Заключение