随着视频数据的爆炸式增长,视频处理任务变得越来越重要。
处理视频数据需要大量的计算资源和时间,这使得视频处理任务成为了一个挑战。
为了解决这个问题,卡内基梅隆大学提出了一种新的视频大模型加速方法——Run-Length Tokenization(RLT),被NeurIPS2024选为SpotLight本文。
近年来,Transformer模型在自然语言处理和计算机视觉领域取得了巨大的成功。
Transformer模型在处理视频数据时面临着一些挑战。
视频数据具有连续性和冗余性,传统的Transformer模型无法有效地处理这些特性。
因此,需要一种新的方法来加速视频处理任务。
RLT是一种基于视频连续性和冗余性的加速方法。
它的核心原理是利用视频中存在大量时间上重复的图像块这一特点,将重复的图像块合并成一个token表示。
这种情况下,还需要用一个位置编码来表示这个token的长度。
RLT总体上减少了输入的token数量,从而加速了模型的训练和推理速度。
1. 视频分块:对视频进行分块,将视频在空间和时间维度上划分成固定大小的图像块。每个图像块都对应一个空间-时间位置。
2. 重复图像块合并:比较时间上相邻的图像块,判断它们是否相似,也就是是否需要合并。对于时间位置相差1的两个图像块,如果它们足够相似,就认为它们是静态重复的,并移除重复的图像块。
3. 长度编码:给合并后的token加上长度编码,以保留完整的信息。长度信息与一个token的空间-时间位置一起,通过可学习的长度编码矩阵映射成一个embedding向量。
4. 输入到视频Transformer:将处理后的token序列输入到视频Transformer中,进行常规的训练或推理过程。
RLT方法在视频处理任务中具有显著的加速效果。
在精度几乎没有损失的前提下,RLT可以让模型训练和推理速度双双提升。
一般情况下,利用RLT,Transformer视频识别模型的训练时间可缩短30%,推理阶段提速率提升更是可达67%。
对于高帧率和长视频,RLT的效果更加明显,30fps视频的训练速度可提升1倍,长视频训练token减少80%。
与传统的剪枝方法相比,RLT能用更小的精度损失实现更好的加速效果。
这是因为RLT方法基于视频的连续性和冗余性,能够更有效地去除冗余信息。
在Kinetics-400和SSv2数据集上,RLT对ViT-B和ViT-L两种规模的模型都有很好的加速效果。
在训练阶段,ViT-B和ViT-L的训练时间都有明显的降低。
在推理阶段,RLT同样能够带来显著的加速效果,而且不需要额外的训练。
RLT是一种基于视频连续性和冗余性的加速方法,能够显著加速视频处理任务。
通过合并重复的图像块,RLT减少了输入的token数量,从而降低了计算量和内存占用。
在精度几乎没有损失的前提下,RLT能够让模型训练和推理速度大幅提升。
对于高帧率和长视频,RLT的加速效果更加明显。
未来的工作将围绕RLT方法的进一步优化展开。
研究者们将继续探索更有效的合并策略,以提高模型的加速效果。
研究者们还将尝试将RLT与其他加速技术相结合,以进一步提高视频处理任务的性能。
RLT是一种非常有前景的视频处理加速方法。
它利用视频的连续性和冗余性,实现了显著的加速效果。
相信随着时间的推移,RLT将在视频处理任务中发挥越来越重要的作用。
本文地址:代码:
本文地址: https://www.gosl.cn/hlzxwz/4c0296c04882315a7cdf.html
上一篇:探索未来发展路径与技术创新方向...