顛覆想象的AI繪畫(huà):Dall-E 2使用指南
圍繞OpenAI推出的第二代DALL-E 2系統(tǒng)的討論一直處于兩極分化的狀態(tài),甚至在其推出了幾個(gè)月后依舊如此。
有用戶認(rèn)為這是一項(xiàng)可以重新定義藝術(shù)的突破性創(chuàng)新,而批評(píng)者則將其視為人工智能圖像生成器給創(chuàng)意產(chǎn)業(yè)帶來(lái)厄運(yùn)的開(kāi)始。
然而毫無(wú)疑問(wèn)的是,DALL-E 2為我們創(chuàng)造和消費(fèi)藝術(shù)開(kāi)辟了新的可能性和挑戰(zhàn)。本文詳細(xì)介紹了AI圖像生成器DALL-E 2的用法和缺點(diǎn)。
什么是DALL-E 2?
DALL-E 2是一款人工智能圖像生成器,它可以根據(jù)自然語(yǔ)言的文本描述創(chuàng)建圖像和藝術(shù)形式。換句話說(shuō),它是一個(gè)根據(jù)文本生成圖像的人工智能系統(tǒng)。
2021年1月,OpenAI推出了DALL-E模型,DALL-E 2是其升級(jí)版!癉ALL-E”這個(gè)名字源于西班牙著名藝術(shù)家Salvador Dalí和廣受歡迎的皮克斯動(dòng)畫(huà)機(jī)器人“Wall-E”的組合。
2022年7月,DALL-E 2進(jìn)入測(cè)試階段,可供白名單中的用戶使用。同年9月28日,OpenAI取消了白名單的要求,推出了任何人都可以訪問(wèn)并且使用的開(kāi)放測(cè)試版。
與最初的DALL-E一樣,DALL-E 2也是一種語(yǔ)言生成模型,它使用文本提示來(lái)創(chuàng)建原始圖像。
盡管和之前DALL-E具有的120億個(gè)參數(shù)的模型不同,DALL-E僅僅具有大約35億個(gè)參數(shù),但DALL-E 2生成的圖像分辨率是DALL-E的四倍,這是一次令人印象深刻的升級(jí)。同時(shí),DALL-E 2在真實(shí)感和字幕匹配方面似乎也做得更好。
如何使用DALL-E 2?
聽(tīng)起來(lái),DALL-E 2很有未來(lái)感,可能會(huì)讓新用戶望而生畏,但它使用起來(lái)非常簡(jiǎn)單。我們不進(jìn)行詳細(xì)介紹,僅通過(guò)迷你教程為大家提供快速概覽。
首先,登陸DALL-E 2的官網(wǎng)并創(chuàng)建一個(gè)帳戶,如果您此前已經(jīng)擁有OpenAI的帳戶,登陸即可。需要注意的是,系統(tǒng)會(huì)要求您提供電子郵件和電話號(hào)碼以進(jìn)行驗(yàn)證。
一旦帳戶準(zhǔn)備就緒,我們就可以開(kāi)始生成圖像。用戶最多提供400個(gè)字符的描述性文本,AI藝術(shù)生成器將對(duì)其進(jìn)行處理。根據(jù)測(cè)試,我們可以從文本提示中得到許多原創(chuàng)且有趣的結(jié)果。
比如,我們輸入“狼群在滿月時(shí)嚎叫”就收到了如下的結(jié)果。
輸入“一個(gè)3D渲染的羅馬士兵正在休息”則獲得了以下的圖像。
DALL-E 2的工作原理是什么?
DALL-E 2為AI圖像生成器的質(zhì)量提供了新的基準(zhǔn)。它與之前的同類產(chǎn)品相比,能夠更好地理解文本描述。
其卓越的自然語(yǔ)言理解能力可以更嚴(yán)格地控制圖像的風(fēng)格、主題、角度、背景、位置和概念,并獲得更高質(zhì)量的圖像和令人印象深刻的藝術(shù)形式。
那么讓我們來(lái)看看DALL-E 2的工作原理。
要了解AI圖像生成器的工作原理,我們首先需要了解CLIP、先驗(yàn)?zāi)P秃徒獯a器擴(kuò)散模型(unCLIP)。
什么是CLIP?CLIP指的是對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練,是DALL-E 2架構(gòu)中最關(guān)鍵的模塊。
該訓(xùn)練基于用戶可以用自然語(yǔ)言教計(jì)算機(jī)不同圖像之間如何相互關(guān)聯(lián),并由文本和圖像編碼器這兩個(gè)神經(jīng)網(wǎng)絡(luò)組成。
文本和圖像編碼器都接受了大量不同的圖像文本對(duì)集合的訓(xùn)練。該模型分析這些圖像-標(biāo)題對(duì)以創(chuàng)建稱為文本/圖像嵌入的矢量表示。換句話說(shuō),CLIP充當(dāng)文本(輸入)和圖像(輸出)之間的橋梁。
先驗(yàn)?zāi)P筒捎脴?biāo)題/CLIP文本嵌入,并以此為基礎(chǔ)生成CLIP圖像嵌入。
unCLIP則是使用CLIP圖像嵌入生成圖的原始CLIP模型的逆模型。DALL-E 2通過(guò)先驗(yàn)?zāi)P秃蛈nCLIP模型來(lái)創(chuàng)建輸出。
下圖大致概述了其基本過(guò)程。
如圖所示,unCLIP模型創(chuàng)建了圖像的“心理”表示;诖,創(chuàng)建了原始圖像。
這些“心理再現(xiàn)”保留了語(yǔ)義一致的核心特征和特點(diǎn),例如“動(dòng)物、物體、顏色、風(fēng)格和背景等關(guān)鍵要素”。然而,因?yàn)閿U(kuò)散學(xué)習(xí)是變化的,每一次輸出的圖像也會(huì)有所不同。
請(qǐng)注意,上文只是DALL-E 2工作原理的簡(jiǎn)要表述,實(shí)現(xiàn)的技術(shù)細(xì)節(jié)和數(shù)學(xué)更加復(fù)雜,我們就不在這里贅述。如果您對(duì)DALL-E 2的技術(shù)規(guī)格感興趣,可以參看OpenAI在今年早些時(shí)候發(fā)表的論文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。
使用DALL-E 2可以做什么?
只要用戶給出精確和具有描述性的文本提示,就可以通過(guò)AI藝術(shù)生成器得到多個(gè)高質(zhì)量的圖像,甚至在幾秒鐘的時(shí)間里實(shí)現(xiàn)畫(huà)家或數(shù)字藝術(shù)家需要數(shù)小時(shí)甚至數(shù)天才能達(dá)到的質(zhì)量水平。
用戶可以免費(fèi)查看所有這些視覺(jué)創(chuàng)意,無(wú)需支付場(chǎng)地費(fèi),也無(wú)需向創(chuàng)意人員和模特支付工資。
然而這也對(duì)我們的內(nèi)容創(chuàng)作經(jīng)濟(jì)帶來(lái)了一定的影響。
DALL-E 2使用自己對(duì)主題、風(fēng)格、調(diào)色板和所需概念意義的“理解”,生成相應(yīng)的圖像。
每個(gè)圖像最多可以產(chǎn)生四個(gè)變體。每一個(gè)都與原作的外觀、感覺(jué)和意義相呼應(yīng),但又具有自己獨(dú)特的風(fēng)格。
您也可以在DALL-E 2中編輯圖像,無(wú)需任何照片編輯經(jīng)驗(yàn)。與Adobe Photoshop不同,使用DALL-E進(jìn)行編輯非常簡(jiǎn)單。
例如,用戶想要在火星上行走的宇航員的肖像中添加一只狗,只需要輸入“在宇航員身后放一只狗”。同樣,用戶還可以要求程序通過(guò)放大和縮小來(lái)更改圖像的視圖框架,直到獲得所需的結(jié)果。而就DALL-E 2的功能而言,這些只是冰山一角。
同時(shí),根據(jù)設(shè)計(jì),該系統(tǒng)無(wú)法生成涉及色情、血腥或政治元素的內(nèi)容。也就是說(shuō),該程序有其合理的局限性和缺點(diǎn)。
DALL-E 2的局限性
DALL-E 2的輸出質(zhì)量很大一部分取決于用戶提供的文本提示的質(zhì)量,文本越具體,獲得所需輸出的機(jī)會(huì)就越高。然而,該系統(tǒng)有一些內(nèi)在的局限性。
例如,當(dāng)前它還不具有很精確組合性,盡管似乎會(huì)隨著時(shí)間的推移而改善。這意味著DALL-E 2通常無(wú)法有意義地合并多個(gè)對(duì)象或?qū)ο髮傩裕缧螤、方向和顏色?/p>
同時(shí)在一些意料之外的情況下,有一些相對(duì)簡(jiǎn)單的文本,程序也可能無(wú)法充分執(zhí)行。
例如,我們輸入文本“一百只打扮成羅馬士兵的青蛙在沙漠中行進(jìn)”。即使我們嘗試了多種提示變體,結(jié)果也不盡如人意。
另一個(gè)例子是當(dāng)我們嘗試相當(dāng)簡(jiǎn)單的提示時(shí),如“霸王龍騎著獨(dú)輪車在艾菲爾塔前”。不知道為什么,程序拒絕畫(huà)獨(dú)輪車,取而代之的是自行車。而當(dāng)我們從提示中刪除“Eifel Tower”,產(chǎn)生預(yù)期圖像則沒(méi)有任何阻礙。
這些只是DALL-E 2局限性的幾個(gè)例子。更令人擔(dān)憂的問(wèn)題本質(zhì)上很復(fù)雜,可能會(huì)對(duì)公司及其用戶造成嚴(yán)重不良影響。
OpenAI限定DALL-E 2不創(chuàng)建公眾人物和名人的圖像。事實(shí)上,它完全拒絕生成包含真實(shí)面孔或真人的圖像,這是朝著防止濫用該程序邁出的重要一步。
隨著DALL-E 2越來(lái)越受歡迎,版權(quán)侵權(quán)也可能成為一個(gè)大問(wèn)題。OpenAI堅(jiān)持認(rèn)為,用戶“獲得了將他們使用DALL-E創(chuàng)建的圖像商業(yè)化的全部權(quán)利,包括轉(zhuǎn)載、銷售和商品化的權(quán)利。”
然而,人工智能藝術(shù)生成器依賴于分析、學(xué)習(xí)人類藝術(shù)家的作品來(lái)創(chuàng)造藝術(shù)。因此,不能排除潛在的侵犯知識(shí)產(chǎn)權(quán)法的可能性,無(wú)論是否有意。
總結(jié)
DALL-E 2完美嗎?作為一項(xiàng)正在完善的項(xiàng)目,答案是否定的。
但是,正如機(jī)器學(xué)習(xí)的本質(zhì)一樣,隨著時(shí)間的推移,該程序正變得越來(lái)越聰明,也越來(lái)越有能力。從純技術(shù)的角度來(lái)看,DALL-E 2是AI技術(shù)演進(jìn)的一大進(jìn)步。
人們普遍認(rèn)為人工智能系統(tǒng)在創(chuàng)意領(lǐng)域?qū)嶋H上無(wú)法超越人類,至少不會(huì)很快。但是DALL-E 2已經(jīng)使這個(gè)論點(diǎn)受到了沖擊。
然而盡管OpenAI已經(jīng)采取了一系列措施來(lái)預(yù)測(cè)和防止DALL-E 2的潛在濫用,但這并非萬(wàn)無(wú)一失。在沒(méi)有任何道德界限的情況下可以使用的AI系統(tǒng)將在多久后出現(xiàn)?需要我們保持警惕。
無(wú)論如何,我們都需要密切關(guān)注這個(gè)新興行業(yè)。因?yàn)锳I藝術(shù)生成器及其背后的技術(shù)只會(huì)在未來(lái)的歲月里變得更加普遍。
原文由Shilpa Lama撰寫,中文內(nèi)容由元宇宙之心(MetaverseHub)團(tuán)隊(duì)編譯,如需轉(zhuǎn)載請(qǐng)聯(lián)系我們。
原文標(biāo)題 : 顛覆想象的AI繪畫(huà):Dall-E 2使用指南
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來(lái)最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來(lái)
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市