AutoCut: End-to-end Advertisement Video Editing Based on Multimodal Discretization and Controllable Generation

发表于:CVPR 2026, 2026

短视频已成为数字广告的主要媒介,需要可扩展且高效的内容创作方式。AutoCut是一个基于多模态离散化和可控编辑的端到端广告视频编辑框架。它使用专用编码器提取视频和音频特征,通过残差向量量化将其离散化为与文本表示对齐的统一token,构建共享的视频-音频-文本token空间。基于基础模型,通过多模态对齐和监督微调进一步开发了用于视频编辑的多模态大语言模型,在统一编辑框架中支持视频筛选与排序、脚本生成和背景音乐选择等任务。

推荐引用格式: ZHOU M, QIN S Z, LI Y Z, et al. End-to-end Advertisement Video Editing Based on Multimodal Discretization and Controllable Generation[C/OL]. CVPR, 2026. https://arxiv.org/abs/2603.28366.
论文链接