網友評分: 5分
北京大學、北京郵電大學和快手科技聯合開源了一款名為Pyramid Flow的高清視頻生成模型。Pyramid Flow能根據文本描述制作長達10秒、分辨率為1280×768、每秒24幀的視頻。Pyramid Flow采用了金字塔流匹配算法,優化了視頻生成的效率和質量。這一算法將視頻生成過程分解為多個階段,每個階段對應著不同的分辨率。在推理階段,Pyramid Flow模型能夠以相當快的速度生成視頻。具體來說,它可以在56秒內生成一段時長為5秒、分辨率為384p的視頻,這一速度與市面上許多全序列擴散模型相當,甚至更快。
一、金字塔流匹配算法:高質量AI視頻新技術,逐層提高分辨率
文生視頻領域有一個非常難的技術挑戰,就是如何有效地處理和生成高維度的視頻數據。
針對這一技術挑戰,研發團隊提出了金字塔流匹配算法。
金字塔流匹配算法的核心思想是將視頻生成過程分解為多個階段來有效處理高維度的視頻數據。這些階段從低分辨率開始,逐步升級到高分辨率,從而逐步提升視頻的清晰度。
這個過程就像是先畫一個簡單的草圖,然后一點點地加上顏色和細節,直到畫出一幅完整的畫。
金字塔流匹配算法:視頻的生成是在不同的分辨率層次上逐步進行的(圖源:arxiv論文截圖)
二、開源數據集訓練,生成5-10秒高清視頻
模型通過分階段的方式生成視頻,大大減少了計算成本。
生成的視頻展示
與傳統的擴散模型相比,金字塔流匹配算法將token數量減少了4倍。
生成的視頻展示
據官網介紹,該模型可以在768p分辨率和每秒24幀的條件下生成5至10秒的視頻,并且是基于開源數據集進行訓練的。
生成的視頻展示
具體來說,Pyramid Flow在訓練時用到的數據集包括LAION-5B、CC-12M、SA-1B以及WebVid-10M和OpenVid-1M等。
1、LAION-5B:一個用于多模態AI研究的大型數據集。
2、CC-12M:一個由網絡爬蟲收集的圖像文本對的數據集。
3、SA-1B:具有高質量、無模糊圖像的數據集。
4、WebVid-10M和OpenVid-1M:兩個被廣泛用于文本到視頻生成的視頻數據集。
三、寬松許可,開源商業用途,輕松實現視頻微調
開源的AI視頻生成工具,它允許用戶用在商業項目里,但須保留版權聲明。
生成的視頻展示
通過使用,用戶可以免費調整視頻細節,這項功能對于電影制片廠來說很有吸引力。
電影制片廠可以通過使用來提高視頻制作效率、降低視頻制作成本,并探索新的視頻創意工具。
不過,要想充分利用好這一模型,電影制片廠還需要具備一定的開發人才和計算資源。
目前,Pyramid Flow缺乏像Runway Gen-3 Alpha這樣的模型所具備的一些高級微調功能,比如精確控制攝像機角度、關鍵幀和人體姿態等電影元素。
標簽: Pyramid Flow