[1]

D. D. Nimma and A. Uddagiri, “OPT-STVIT: Video Recognition through Optimized Spatial-Temporal Video Vision Transformers”, SEEJPH, pp. 2103–2118, Nov. 2024.