訂閱
糾錯
加入自媒體

AI視頻模型大混戰(zhàn),誰是你的 No.1?

2024-07-09 13:34
烏鴉智能說
關注

自從Sora發(fā)布以來,AI視頻模型的“魔盒”被徹底打開。今年上半年,AI視頻模型遍地開花,Viggle、Genmo、即夢、Dream Machine、可靈輪番炸場。

這么多的AI視頻模型,在讓人眼花繚亂的同時,也帶來了一個疑問:誰才是AI視頻模型的No.1?

烏鴉君也非常好奇各款產品表現(xiàn)優(yōu)劣。剛好上周三Runaway宣布Gen-3 Alpha向所有用戶開放測試,借著這個契機,烏鴉君就把市面上開放的AI視頻模型都拉過來測一測。

圖片

參與此次測試的選手有7位,涵蓋了AI視頻領域的國內外名將、新星,其中國外的包括Gen-3 Alpha、Dream Machine、Genmo、Pika 1.0,國內AI視頻的代表則是愛詩科技的PixVerse、快手的可靈和字節(jié)跳動的即夢。

結合測試結果和個人體感,烏鴉君得到以下三個結論:

1.可靈的綜合體驗最好,信息準確度高、視頻時長和質量穩(wěn)定性上都有著不錯的表現(xiàn),偶有瑕疵。

2.即夢、PixVerse、Gen-3 Alpha和Dream Machine四家普遍在人物一致性和物理邏輯上會有問題,繼續(xù)迭代一下,未來可期。

3. Genmo和Pika1.0則受限于發(fā)布時間較早,在語義理解能力、畫面平滑度、運動一致性等方面明顯落后于其他競品,足見AI視頻迭代速度之快。

/ 01 / 三組Prompt,6個測評維度

測評會使用同一個Prompt,對不同AI視頻模型生成的結果進行評判?紤]到AI視頻模型的表現(xiàn)可能會有波動,烏鴉君給出以下三組文生視頻提示詞,綜合評判表現(xiàn)效果。

考題1:我用《愛樂之城》的經典畫面為基準,設定一個Prompt:Under the night sky, a girl in the yellow skirt are dancing with a man.(在夜空下,一位穿著黃色裙子的女人在和一個男人跳舞。)

考點:對Prompt中提到的“夜空”“黃色裙子”“跳舞”等元素進行生成,描繪出雙人跳舞的畫面,對人物動作的協(xié)調性有一定要求。

考題2:我用Sora公布的一條視頻提示詞:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. (在熙熙攘攘的東京,白雪皚皚。鏡頭跟隨幾個人穿過城市街道,他們正享受美麗的下雪天,并在附近的攤位購物,絢麗的櫻花伴隨著雪花隨風飄揚。)

考點:描繪鏡頭、人物和街道商販的動態(tài),并保持著雪花和櫻花一同飄落的效果。

考題3:我改寫了一條Sora公布的電影預告片風格提示詞:A movie trailer featuring the adventures of the 20 year old space man wearing a transparent fish tank, blue sky, desert, cinematic style, shot on 35mm film, vivid colors. (影片講述了20歲太空人的冒險經歷,他戴著透明的魚缸,背后是藍天、沙漠,電影風格,35毫米膠片拍攝,色彩鮮艷。)

考點:消化電影預告片的風格,細膩描畫人物,還原藍天、沙漠等場景,也考驗AI對于科幻故事的想象力。

測試方法

評判的維度包括六個層面,分別是語義理解、圖像質量、物理邏輯、一致性、風格創(chuàng)意、易用性。每個層面根據視頻表現(xiàn)來評分,總分6分。

1、【語義理解】視頻結果和Prompt的描述是否一致,一致得1分。

2、【圖像質量】圖像質量的考量包括清晰度、分辨率、色彩準確性和動態(tài)范圍,表現(xiàn)較佳得1分。

3、【物理邏輯】視頻內容符合基本的物理常識,得1分。

4、【一致性】保持物體和場景的一致性和連續(xù)性,得1分。

5、【風格創(chuàng)意】畫面有風格或創(chuàng)意,得1分。

6、【易用性】產品體驗友好,得1分。

以下評測基于我個人主觀判斷,結果僅供參考,有不同看法歡迎討論。

/ 02 / 測評結果和簡單分析

1、Gen-3 Alpha,綜合得分:4分

和上一代Gen-2相比,Gen-3 Alpha面對復雜指令的敏感度更高,能夠處理更復雜的場景。

從視頻畫面來看,Gen-3 Alpha整體控制得很好,具備很高的保真度,能夠生成逼真的人類角色和動態(tài)場景。

畫面準確展示了雙人舞動的動態(tài)、東京街頭紛飛的雪景,質感很接近影視效果,在畫面紋理、鏡頭視角控制等方面的表現(xiàn)也很突出。

在風格和創(chuàng)意上,Gen-3 Alpha明顯超越其他AI視頻,風格堪稱大片級。

值得注意的是,Gen-3 Alpha在物理邏輯上存在瑕疵,比如,第1題中的人物在跳舞時手部動作相對失真;同時,女人在跳舞轉身后,腦袋上出現(xiàn)了男人的臉,bug明顯。

易用性方面, Gen-3 Alpha可以進行細節(jié)控制,支持多種視頻生成和控制工具。現(xiàn)在Runaway已將Gen-3 Alpha開放給所有C端用戶,月費會員15美元,每月只能生成約60秒的視頻,相當于4s視頻就要消耗1美元。

2、 Dream Machine,綜合得分:4分

Dream Machine是Luma AI在6月中旬發(fā)布的產品,目前只能生成5秒的視頻,且生成的過程很漫長,但這不妨礙網友排隊用這個免費AI來二創(chuàng)梗圖的熱情。

從視頻畫面上看,除了第一個視頻沒有展示夜空外,Dream Machine的表現(xiàn)基本與Prompt的描述相符,勉強可以算合格,人物一致性也沒有問題。

圖像質量整體控制的不錯,Dream Machine在后兩個視頻也展示了其專業(yè)的拍攝角度,鏡頭模擬幾乎達到電影級水準。

美中不足的是,Dream Machine在物理邏輯上表現(xiàn)很差。無論是第一個視頻里毫無美感的舞蹈,還是第三個視頻里怪異的走路姿勢,都說明Dream Machine當下很難理解物理邏輯,甚至連簡單動作的動態(tài)輸出都有問題。

在使用便利性上,用戶只需前往官網點擊“Try Now”按鈕,按要求登錄谷歌賬號,然后在提示欄中輸入文字或圖片,靜靜等待即可。如果用戶一時半會想不到提示詞,還可以在系統(tǒng)預先準備的六條中進行選擇,十分好操作。

3、 Genmo,綜合得分:2分

作為去年11月發(fā)布的一款免費AI視頻工具,Genmo的表現(xiàn)就相對遜色許多。

先說語義理解,就基本不合格。在第一個視頻里,畫面顯示的是夕陽西下,日照金山,并不符合指令中“夜空下”的要求。而在第二個視頻里,Genmo也完全沒有呈現(xiàn)Prompt里的“白雪皚皚”和“下雪天”,反而把環(huán)境變成了粉色的櫻花。

在物理邏輯和一致性上,Genmo同樣表現(xiàn)不佳。這一點在其作答第1題時體現(xiàn)得很清晰,畫面開始女生的長頭發(fā)出現(xiàn)在男生的頭上,跳舞過程中,雙方的手在運動過程中也出現(xiàn)了多次瞬移。

要說優(yōu)點,Genmo在圖像質量上的表現(xiàn)勉強合格,在第1題中做了比較多的光影渲染。易用方面,Genmo也做到了保姆級別,提供了直觀清晰的界面,不僅可以調整視頻片段的持續(xù)長度、平滑度、變化程度等,還可以模擬相機運動,比如進行畫面放大/縮小、順/逆時針旋轉、平移、傾斜等操作,簡化了視頻生成過程。

4、 Pika1.0,綜合得分:1分

說真的,烏鴉君對這款明星產品此次的表現(xiàn)非常失望。

首先,Pika很難理解復雜的指令。比如,Pika在第3題直接給我個大魚缸,甚至連“太空人”、“沙漠”等元素都不見了。同時,現(xiàn)在Pika只能生成3秒的視頻,是參評工具生成的視頻中最短的。

在畫面質量上,無論是東京雪景還是雙人舞蹈,紋理較差,Pika的畫面都簡陋得像動畫建模的初學作品。

另外,Pika在物理邏輯和一致性上也同樣存在問題,例如第1題中的人物動作模糊、肢體粘連,人物的臉部沒有細節(jié),甚至右側的男生在跳舞時就干脆一動不動,像個木頭人。

Pika唯一的優(yōu)勢在于,創(chuàng)作相對方便,單次文生成視頻的過程大約消耗30s,算是比較快的。用戶可以選擇視頻尺寸和幀率,并對鏡頭的運動方向和物體的運動速度進行控制。今年3月,Pika還上線了無縫生成音效的Sound Effects功能,提高了工具便捷性。

5、 PixVerse,綜合得分:4分

由字節(jié)前視覺技術負責人王長虎創(chuàng)立的愛詩科技,在今年1月推出了PixVerse。到今年3月,PixVerse的月訪問量超百萬。PixVerse基本能夠準確理解Prompt的意思,并給出相應的畫面。

從視頻質量上來看,PixVerse始終表現(xiàn)得很穩(wěn)定,畫面整體和諧,也不乏亮點。比如,作答第3題時,PixVerse生成的視頻出現(xiàn)大多數(shù)AI視頻里沒有的運動鏡頭,而背景畫面依舊保持著較高的質量。

另外,PixVerse也很擅長對人物面部細節(jié)的刻畫,第3題的視頻中,太空人擁有“緊皺的眉頭”和“思索的神情”,看起來十分靈動。

不足的地方在于,PixVerse幾乎沒有任何人物動作的畫面。在第1題中,除了手部輕微的動作外,根本看不到任何舞蹈的動作,而且女人似乎也只有一只腿。而且,在第2題中,PixVerse生成視頻的行人走路動作也相對模糊,說明其在物理邏輯存在問題。

易用性方面,PixVerse的“Upscale”功能,讓用戶不用花錢,就能提高視頻分辨率。用戶也可以瀏覽熱門作品,查看它們的詳細參數(shù)信息,包括關鍵詞、種子、畫面的縱橫比、運動幅度、風格以及原始圖片,學習和模仿優(yōu)秀作品。

6、可靈,綜合得分:5分

快手推出的可靈大模型采用了與Sora相似的技術路線。從視頻畫面來看,可靈的表現(xiàn)非常穩(wěn)定,能準確完成指令,整段30秒視頻沒有出現(xiàn)太大的偏差,只是遺漏了第2題中的“飄雪”指令。

可靈的畫面質量超出了我的預期。它對樹木、星空、雪景等自然景觀模擬得很到位,還在第2題中努力做出人臉等細節(jié),看得出可靈是想做出接近實拍的效果,它的一致性也沒什么問題。在風格和創(chuàng)意方面,與其他AI中較夸張的動漫、電影藝術風格相比,可靈的實拍風格算是獨樹一幟。

但是,可靈在理解物理世界方面仍然存在一些小瑕疵。例如,第1題中的女孩在跳舞抬腿動作時,出現(xiàn)了模糊和瞬移,不過相比其他模型,可靈在物理理解上的表現(xiàn)得算是優(yōu)秀了。

在易用性方面,可靈的優(yōu)勢比較明顯,它現(xiàn)在有了更加清晰的高畫質版,以及首尾幀控制、鏡頭控制等新功能,且創(chuàng)作者單次生成的文生視頻時長增加至10秒,官方還上線了加快生成模式,提供給會員使用。

7、即夢,綜合得分:4分

即夢是抖音前CEO張楠親自掛帥的剪映所推出的產品,它在時長上比別的AI要高一截,單次可以生成12秒視頻,是這次參評工具中最長的。

即夢基本能準確識別Prompt中的關鍵詞;畫面質量,比較細膩。

例如,第2題中的東京街景描畫得非常優(yōu)美。在風格創(chuàng)意方面,即夢也能做到讓人眼前一亮的效果,比如在第3題中,即夢對透明魚缸頭盔、宇航服的描畫很有科幻色彩。

與很多AI視頻模型一樣,對物理世界的理解是即夢的短板,完成運動幅度較大的視頻時,即夢會出現(xiàn)較為明顯的崩壞,例如作答第1題時的表現(xiàn)。從一致性上來看,即夢也存在問題,比如第2題的東京街頭,不少人在轉身之后都出現(xiàn)了另一張臉。

在易用性方面,即夢視頻支持各種變焦、搖鏡等運鏡控制,還有更多的尺寸選擇,操作上也很簡單,非常適合愛玩視頻的抖友們。

/ 03 / 最終的測試結果:

圖片

高分組:可靈

中分組:即夢、PixVerse、Gen-3 Alpha、Dream Machine

低分組:Genmo、Pika1.0

圖片

       原文標題 : AI視頻模型大混戰(zhàn),誰是你的 No.1?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容
文章糾錯
x
*文字標題:
*糾錯內容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網安備 44030502002758號