无码网天天爽免费视频,av激情电影在线观看,天天干天天射天天插

對話網(wǎng)易伏羲趙增：開源VS自研？哪條路是通向AIGC的捷徑？｜WAIC2023

2023-07-17 17:29

文 | 郝鑫、黃小藝

從去年底到現(xiàn)在，國內(nèi)外肉眼可見地涌現(xiàn)出了一批文生圖公司，這背后與基礎(chǔ)架構(gòu)開源有很大關(guān)系。

2022年8月，Stability.AI在GitHub上公開開源了Stable Diffusion模型的代碼和訓(xùn)練數(shù)據(jù)集；當(dāng)月底，基于Stable Diffusion的圖像生成工具Stable Diffusion web UI也正式開源發(fā)布。

（Stable Diffusion模型基本架構(gòu) 圖源：網(wǎng)絡(luò)）

自此，以“Stable Diffusion”命名的“擴散模型”響徹了整個AIGC，在落地中形成了由文字編碼器（Text Encoder)、圖像信息生成器（Image Information Creator）和圖像解碼器（Image Decoder)組成的擴散模型架構(gòu)，技術(shù)的核心是在去噪的過程中逐漸還原出圖片。

（去噪過程演示圖源：網(wǎng)絡(luò)）

開源的春風(fēng)吹到了國內(nèi)，也給了正在獨自摸黑探索的中國文生圖公司送去了光明。

“開源了，我們既興奮，但又更迷茫了。”

技術(shù)方向更加明確了，訓(xùn)練路徑也更加清晰，中國文生圖公司又面臨著一個新問題：要不要全面擁抱開源模型？

對于這個問題，網(wǎng)易伏羲和趙增團隊也曾反復(fù)思考。

趙增的答案是，只能借鑒，不能全盤照抄。“模型訓(xùn)練不能開黑盒，只要做不到完全透明、可控，就存在風(fēng)險。”

基于這個邏輯，網(wǎng)易伏羲走上了中國式文生圖的道路，其基本模型架構(gòu)為“自研+開源”相結(jié)合，平臺做到了全中文輸入、理解。

之前大模型因為不理解中文“鬧了不少笑話”，而網(wǎng)易伏羲從模型訓(xùn)練開始便意識到了這個問題，在思考如何把文生圖用得更好方面更快人一步。

如今，文生圖邁入了更高效、更穩(wěn)定、更自由可控的里程碑階段，也衍生出圖生圖、圖生3D、多圖生視頻等技術(shù)路徑。

在圍觀了國外文生圖應(yīng)用的熱鬧景象之后，網(wǎng)易伏羲也走向了更深的自我思考和升級。

近期2023世界人工智能大會上，光錐智能對話網(wǎng)易伏羲預(yù)訓(xùn)練及生成式人工智能平臺負責(zé)人趙增，聊一聊他對于爆火的文生圖現(xiàn)象和背后技術(shù)的理解。

核心觀點如下：

1、文生圖的模型參數(shù)不是越大，效果就越好。

2、技術(shù)是標(biāo)準(zhǔn)化的，但審美是非標(biāo)準(zhǔn)化的，要想提升生成的美術(shù)效果，需要有美術(shù)專家介入，提供反饋。文生圖的模型上限在專家，下限在技術(shù)。

3、借鑒國外開源模型固然可以提升生成技術(shù)，但一味地擁抱開源并不可取，其中存在許多可控性、安全問題，還是要構(gòu)建自主的生成模型。

?4、總體來看，文生圖應(yīng)用還處于探索時期，沒有進入工業(yè)化落地階段。

（網(wǎng)易伏羲預(yù)訓(xùn)練及生成式人工智能平臺負責(zé)人趙增）

以下為對話實錄：

光錐智能：網(wǎng)易伏羲生成平臺的探索過程是怎樣的？近期有哪些新的進展？

趙增：2018年開始，網(wǎng)易伏羲就開始嘗試用GPT去做模型應(yīng)用適配。但隨著OpenAI公司逐漸關(guān)閉對國內(nèi)的技術(shù)訪問路口，2020年，我們開始自己組織團隊，以文本預(yù)訓(xùn)練為切入點去訓(xùn)練模型。

2021年之后，結(jié)合網(wǎng)易自身業(yè)務(wù)需求和互聯(lián)網(wǎng)發(fā)展歷程，我們判斷多模態(tài)將是未來發(fā)展趨勢，因而開始大力做多模態(tài)理解和生成。去年Stable Diffusion開源后，開始將自身的模型訓(xùn)練路線與開源架構(gòu)相融合。

今年年初，文生圖再次被推到風(fēng)口，開源生態(tài)也異常活躍，在此背景下，我們對技術(shù)架構(gòu)路徑再次做了調(diào)整：一方面，持續(xù)優(yōu)化自身的中文生成模型，希望其能在中文領(lǐng)域達到頂尖的效果；另一方面，去做更加友好開放的生產(chǎn)管線，將具有AI技術(shù)的人和專業(yè)藝術(shù)家都納入生態(tài)系統(tǒng)。

最近我們內(nèi)部也正在做預(yù)研2.0，在能力得到充分驗證以后，也會更多地對外開放，融合到業(yè)務(wù)場景中、伏羲有靈美術(shù)平臺中。

（AIGC繪畫平臺）

光錐智能：網(wǎng)易伏羲文生圖大模型的參數(shù)是多少？

趙增：現(xiàn)在方案有很多套，有十幾億、三十幾億，也有幾百億的參數(shù)方案。一個很有趣的現(xiàn)象是，即使Stable Diffusion已經(jīng)開源了多個版本，但現(xiàn)在最流行的還是早期的1.5版本，這就代表不是參數(shù)越大，效果就越好。我們的理念也是一樣，會先嘗試把數(shù)據(jù)變得越來越大，模型訓(xùn)練得越來越大，但也還會根據(jù)實際情況選擇合適的尺寸去生成。

光錐智能：網(wǎng)易伏羲支持全中文操作，對比一些英中轉(zhuǎn)換的模型，建立一個全新的中文語料庫的難點在哪里？

趙增：最大的難點在于整個前期投入，就是要去系統(tǒng)性地構(gòu)建高質(zhì)量的中文數(shù)據(jù)集，然后喂給基礎(chǔ)模型，從頭去構(gòu)建，不斷地迭代，所以整個周期就會很長。我們的優(yōu)勢在于，起步比較早，在Stable Diffusion還沒開源之前，我們就已經(jīng)在不斷地投入，到現(xiàn)在已經(jīng)產(chǎn)生了很多積累。

光錐智能：如何在技術(shù)層面提升語義指導(dǎo)的精準(zhǔn)程度，提升文生圖的效果？

趙增：萬變不離其宗。第一，在數(shù)據(jù)層面，要構(gòu)建更符合用戶輸入內(nèi)容的數(shù)據(jù)分布。在大模型背后的系統(tǒng)組件支持下，把這些數(shù)據(jù)更有效地串聯(lián)和優(yōu)化；

第二，在模型結(jié)構(gòu)層面。我們在中文場景下做了很多調(diào)整，去嘗試有效的結(jié)構(gòu)，包括規(guī)模嘗試。整體來講，我們的模型結(jié)構(gòu)跟開源模型結(jié)構(gòu)不是完全一樣的，無論是圖片還是文本，都做了優(yōu)化；

第三，是數(shù)據(jù)反饋。要獲得有價值的評價，把干擾生成過程中的數(shù)據(jù)剔除掉，形成正向反饋機制，才能在訓(xùn)練過程中不斷提高生成能力。

（AIGC生成的古風(fēng)人物形象）

光錐智能：技術(shù)是標(biāo)準(zhǔn)化的，可是審美是非標(biāo)準(zhǔn)化的。網(wǎng)易伏羲在做文生圖的時候，是怎樣標(biāo)準(zhǔn)化生成結(jié)果？優(yōu)化生成效果的呢？

趙增：反饋是很重要的，網(wǎng)易有非常多的頂尖的藝術(shù)家，他們會在使用過程中提供很多專業(yè)意見，幫助我們找到需要優(yōu)化的點。我們也會把當(dāng)前的版本發(fā)到伏羲有靈眾包平臺上，來獲取用戶匿名反饋。

舉個例子，之前3月的時候，我們做了一款二次元模型，初步覺得效果不錯，但美術(shù)專家一看，就說頭身比不行、姿勢不行，在他們的反饋之下，我們從模型數(shù)據(jù)層面做了重構(gòu)，才調(diào)整過來。

這也給我們一個啟示，從系統(tǒng)的層面我們只能去增加量，但是想要做頂尖的內(nèi)容生成，就要有頂尖的審美，需要跟行業(yè)有深度的合作。我們和美工在內(nèi)部分工很明確，模型的上限在他們，下限可能在我們技術(shù)上。

（AIGC生成的二次元形象）

光錐智能：除了審美，專家的介入還會提帶來哪些反饋優(yōu)化，可以舉個例子嗎？

趙增：主要基于他們的生產(chǎn)過程。

比如說處理圖的時候，他們需要什么樣的風(fēng)格。如果是通用風(fēng)格，例如二次元，我們就會把它做成基礎(chǔ)模型；但是如果特別小眾，例如厚涂，就做成二級模型，去開放自主仿真的能力，讓專家自己去定制模型。

而在圖生成以后，他們可能需要能在PS里自動分層的圖片。還有，對于具體內(nèi)容的理解，例如，專家們需要榫卯結(jié)構(gòu)、中國古代盔甲......這就需要我們不斷去構(gòu)建相應(yīng)的數(shù)據(jù)，根據(jù)已有范式，補充相應(yīng)的內(nèi)容。

光錐智能：網(wǎng)易伏羲有沒有針對用戶展開具體的用戶畫像分析，比如專業(yè)的、業(yè)余的等等。

趙增：目前，是希望服務(wù)專業(yè)生產(chǎn)。因為這部分用戶離我們最近，我們最能知道他們想要什么，也能很明確的算出來，等到他們真正用起來以后，我們才能產(chǎn)生巨大的收益。

光錐智能：如何看待使用國外開源模型的問題？

趙增：我們內(nèi)部對要不要直接擁抱開源的這個問題，做了很多次討論，最后的答案是明確的：要構(gòu)建自己的生成模型。

直接使用國外開源模型，存在幾個非常大問題，首先是對生產(chǎn)能力可控性的把握。以文生圖為例，從特征提取到真正拿來用，這中間還有很多環(huán)節(jié)，模型要怎樣去理解一些非常領(lǐng)域化和中國化的內(nèi)容變得很關(guān)鍵，如果直接調(diào)用國外模型肯定會出現(xiàn)水土不服。

另外，在跟進國外開源生態(tài)的過程中，我們發(fā)現(xiàn)，一些生成效果比較好的模型，背后其實是龐大數(shù)據(jù)在支持，如果技術(shù)不加以控制，就可能出現(xiàn)失控。其次是數(shù)據(jù)合規(guī)性問題。雖然技術(shù)沒有國界，但事實證明現(xiàn)在生成的內(nèi)容的確是有偏見的，我們需要保證最后生成的內(nèi)容要符合實際生產(chǎn)需求。

總而言之，我們的目標(biāo)是去構(gòu)建更有中國特色的生成模型，對于這個生成模型，我們希望從底子上它就是可控的，所有構(gòu)建過程都是白盒狀態(tài)，模型、數(shù)據(jù)、工程框架優(yōu)化、迭代演進等都是清晰透明化的，而不是只知道一個模型的版本號，開源后拿過來改改再用。

光錐智能：國外已經(jīng)出現(xiàn)了幾款爆款軟件，進入大規(guī)模應(yīng)用階段。但目前在國內(nèi)，這樣的感知似乎不是很強烈。以您的觀察來看，國內(nèi)文生圖應(yīng)用發(fā)展到了什么階段?

趙增：其實，無論國內(nèi)外，我們認為現(xiàn)在文生圖的應(yīng)用基本都還處于探索階段。因為以我們的標(biāo)準(zhǔn)來看，只有出現(xiàn)像Photoshop這樣現(xiàn)象級的產(chǎn)品，能實現(xiàn)為整個行業(yè)去服務(wù)、產(chǎn)生巨大收益的時候，才算是進入一個工業(yè)化落地的階段。

目前，短暫的體驗型產(chǎn)品還遠遠不夠。從純圖文層面來講，現(xiàn)在的工具功能都是碎片化的，沒有一個能夠解決全流程的問題，我們的用戶需要不斷地在各個AI生產(chǎn)工具中切換，因此他們的支付意愿不高，對單個產(chǎn)品的依賴度也很低。

不過，雖然現(xiàn)在生產(chǎn)規(guī)模還在起點階段，但各種從業(yè)人員包括高層都看到了圖文的價值，還需要時間去探索如何規(guī)模化。

光錐智能：國外公司從文生圖轉(zhuǎn)向了文生視頻，在文生視頻方面，網(wǎng)易伏羲有做嘗試探索嗎？

?趙增：文生視頻我覺得是一個非常有價值的場景，但是從落地的角度來講，還是需要持續(xù)投入，它的成熟度會比文本、圖文更滯后一些。從技術(shù)難點看，它的數(shù)據(jù)量可能更大，需要處理前后幀的相關(guān)性。

原文標(biāo)題 : 對話網(wǎng)易伏羲趙增：開源VS自研？哪條路是通向AIGC的捷徑？｜WAIC2023