国产一级高清A片视频,国产奶水一区

顛覆想象的AI繪畫：Dall-E 2使用指南

2023-01-04 18:00

元宇宙之心

關(guān)注

圍繞OpenAI推出的第二代DALL－E 2系統(tǒng)的討論一直處于兩極分化的狀態(tài)，甚至在其推出了幾個(gè)月后依舊如此。

有用戶認(rèn)為這是一項(xiàng)可以重新定義藝術(shù)的突破性創(chuàng)新，而批評(píng)者則將其視為人工智能圖像生成器給創(chuàng)意產(chǎn)業(yè)帶來厄運(yùn)的開始。

然而毫無疑問的是，DALL－E 2為我們創(chuàng)造和消費(fèi)藝術(shù)開辟了新的可能性和挑戰(zhàn)。本文詳細(xì)介紹了AI圖像生成器DALL－E 2的用法和缺點(diǎn)。

什么是DALL－E 2？

DALL－E 2是一款人工智能圖像生成器，它可以根據(jù)自然語言的文本描述創(chuàng)建圖像和藝術(shù)形式。換句話說，它是一個(gè)根據(jù)文本生成圖像的人工智能系統(tǒng)。

2021年1月，OpenAI推出了DALL－E模型，DALL－E 2是其升級(jí)版�！癉ALL－E”這個(gè)名字源于西班牙著名藝術(shù)家Salvador Dalí和廣受歡迎的皮克斯動(dòng)畫機(jī)器人“Wall－E”的組合。

2022年7月，DALL－E 2進(jìn)入測試階段，可供白名單中的用戶使用。同年9月28日，OpenAI取消了白名單的要求，推出了任何人都可以訪問并且使用的開放測試版。

顛覆想象的AI繪畫：Dall-E 2使用指南

與最初的DALL－E一樣，DALL－E 2也是一種語言生成模型，它使用文本提示來創(chuàng)建原始圖像。

盡管和之前DALL－E具有的120億個(gè)參數(shù)的模型不同，DALL－E僅僅具有大約35億個(gè)參數(shù)，但DALL－E 2生成的圖像分辨率是DALL－E的四倍，這是一次令人印象深刻的升級(jí)。同時(shí)，DALL－E 2在真實(shí)感和字幕匹配方面似乎也做得更好。

如何使用DALL－E 2？

聽起來，DALL－E 2很有未來感，可能會(huì)讓新用戶望而生畏，但它使用起來非常簡單。我們不進(jìn)行詳細(xì)介紹，僅通過迷你教程為大家提供快速概覽。

首先，登陸DALL－E 2的官網(wǎng)并創(chuàng)建一個(gè)帳戶，如果您此前已經(jīng)擁有OpenAI的帳戶，登陸即可。需要注意的是，系統(tǒng)會(huì)要求您提供電子郵件和電話號(hào)碼以進(jìn)行驗(yàn)證。

一旦帳戶準(zhǔn)備就緒，我們就可以開始生成圖像。用戶最多提供400個(gè)字符的描述性文本，AI藝術(shù)生成器將對其進(jìn)行處理。根據(jù)測試，我們可以從文本提示中得到許多原創(chuàng)且有趣的結(jié)果。

比如，我們輸入“狼群在滿月時(shí)嚎叫”就收到了如下的結(jié)果。

顛覆想象的AI繪畫：Dall-E 2使用指南

輸入“一個(gè)3D渲染的羅馬士兵正在休息”則獲得了以下的圖像。

顛覆想象的AI繪畫：Dall-E 2使用指南

DALL－E 2的工作原理是什么？

DALL－E 2為AI圖像生成器的質(zhì)量提供了新的基準(zhǔn)。它與之前的同類產(chǎn)品相比，能夠更好地理解文本描述。

其卓越的自然語言理解能力可以更嚴(yán)格地控制圖像的風(fēng)格、主題、角度、背景、位置和概念，并獲得更高質(zhì)量的圖像和令人印象深刻的藝術(shù)形式。

那么讓我們來看看DALL－E 2的工作原理。

要了解AI圖像生成器的工作原理，我們首先需要了解CLIP、先驗(yàn)?zāi)Ｐ秃徒獯a器擴(kuò)散模型（unCLIP）。

什么是CLIP？CLIP指的是對比語言圖像預(yù)訓(xùn)練，是DALL－E 2架構(gòu)中最關(guān)鍵的模塊。

該訓(xùn)練基于用戶可以用自然語言教計(jì)算機(jī)不同圖像之間如何相互關(guān)聯(lián)，并由文本和圖像編碼器這兩個(gè)神經(jīng)網(wǎng)絡(luò)組成。

文本和圖像編碼器都接受了大量不同的圖像文本對集合的訓(xùn)練。該模型分析這些圖像－標(biāo)題對以創(chuàng)建稱為文本／圖像嵌入的矢量表示。換句話說，CLIP充當(dāng)文本（輸入）和圖像（輸出）之間的橋梁。

先驗(yàn)?zāi)Ｐ筒捎脴?biāo)題／CLIP文本嵌入，并以此為基礎(chǔ)生成CLIP圖像嵌入。

unCLIP則是使用CLIP圖像嵌入生成圖的原始CLIP模型的逆模型。DALL－E 2通過先驗(yàn)?zāi)Ｐ秃蛈nCLIP模型來創(chuàng)建輸出。

下圖大致概述了其基本過程。

顛覆想象的AI繪畫：Dall-E 2使用指南

如圖所示，unCLIP模型創(chuàng)建了圖像的“心理”表示�；诖耍瑒�(chuàng)建了原始圖像。

這些“心理再現(xiàn)”保留了語義一致的核心特征和特點(diǎn)，例如“動(dòng)物、物體、顏色、風(fēng)格和背景等關(guān)鍵要素”。然而，因?yàn)閿U(kuò)散學(xué)習(xí)是變化的，每一次輸出的圖像也會(huì)有所不同。

請注意，上文只是DALL－E 2工作原理的簡要表述，實(shí)現(xiàn)的技術(shù)細(xì)節(jié)和數(shù)學(xué)更加復(fù)雜，我們就不在這里贅述。如果您對DALL－E 2的技術(shù)規(guī)格感興趣，可以參看OpenAI在今年早些時(shí)候發(fā)表的論文《Hierarchical Text－Conditional Image Generation with CLIP Latents》。

使用DALL－E 2可以做什么？

只要用戶給出精確和具有描述性的文本提示，就可以通過AI藝術(shù)生成器得到多個(gè)高質(zhì)量的圖像，甚至在幾秒鐘的時(shí)間里實(shí)現(xiàn)畫家或數(shù)字藝術(shù)家需要數(shù)小時(shí)甚至數(shù)天才能達(dá)到的質(zhì)量水平。

用戶可以免費(fèi)查看所有這些視覺創(chuàng)意，無需支付場地費(fèi)，也無需向創(chuàng)意人員和模特支付工資。

然而這也對我們的內(nèi)容創(chuàng)作經(jīng)濟(jì)帶來了一定的影響。

DALL－E 2使用自己對主題、風(fēng)格、調(diào)色板和所需概念意義的“理解”，生成相應(yīng)的圖像。

顛覆想象的AI繪畫：Dall-E 2使用指南

每個(gè)圖像最多可以產(chǎn)生四個(gè)變體。每一個(gè)都與原作的外觀、感覺和意義相呼應(yīng)，但又具有自己獨(dú)特的風(fēng)格。

顛覆想象的AI繪畫：Dall-E 2使用指南

您也可以在DALL－E 2中編輯圖像，無需任何照片編輯經(jīng)驗(yàn)。與Adobe Photoshop不同，使用DALL－E進(jìn)行編輯非常簡單。

例如，用戶想要在火星上行走的宇航員的肖像中添加一只狗，只需要輸入“在宇航員身后放一只狗”。同樣，用戶還可以要求程序通過放大和縮小來更改圖像的視圖框架，直到獲得所需的結(jié)果。而就DALL－E 2的功能而言，這些只是冰山一角。

同時(shí)，根據(jù)設(shè)計(jì)，該系統(tǒng)無法生成涉及色情、血腥或政治元素的內(nèi)容。也就是說，該程序有其合理的局限性和缺點(diǎn)。

DALL－E 2的局限性

DALL－E 2的輸出質(zhì)量很大一部分取決于用戶提供的文本提示的質(zhì)量，文本越具體，獲得所需輸出的機(jī)會(huì)就越高。然而，該系統(tǒng)有一些內(nèi)在的局限性。

例如，當(dāng)前它還不具有很精確組合性，盡管似乎會(huì)隨著時(shí)間的推移而改善。這意味著DALL－E 2通常無法有意義地合并多個(gè)對象或?qū)ο髮傩�，例如形狀、方向和顏色�?/p>

同時(shí)在一些意料之外的情況下，有一些相對簡單的文本，程序也可能無法充分執(zhí)行。

例如，我們輸入文本“一百只打扮成羅馬士兵的青蛙在沙漠中行進(jìn)”。即使我們嘗試了多種提示變體，結(jié)果也不盡如人意。

顛覆想象的AI繪畫：Dall-E 2使用指南

另一個(gè)例子是當(dāng)我們嘗試相當(dāng)簡單的提示時(shí)，如“霸王龍騎著獨(dú)輪車在艾菲爾塔前”。不知道為什么，程序拒絕畫獨(dú)輪車，取而代之的是自行車。而當(dāng)我們從提示中刪除“Eifel Tower”，產(chǎn)生預(yù)期圖像則沒有任何阻礙。

這些只是DALL－E 2局限性的幾個(gè)例子。更令人擔(dān)憂的問題本質(zhì)上很復(fù)雜，可能會(huì)對公司及其用戶造成嚴(yán)重不良影響。

OpenAI限定DALL－E 2不創(chuàng)建公眾人物和名人的圖像。事實(shí)上，它完全拒絕生成包含真實(shí)面孔或真人的圖像，這是朝著防止濫用該程序邁出的重要一步。

顛覆想象的AI繪畫：Dall-E 2使用指南

隨著DALL－E 2越來越受歡迎，版權(quán)侵權(quán)也可能成為一個(gè)大問題。OpenAI堅(jiān)持認(rèn)為，用戶“獲得了將他們使用DALL－E創(chuàng)建的圖像商業(yè)化的全部權(quán)利，包括轉(zhuǎn)載、銷售和商品化的權(quán)利�！�

然而，人工智能藝術(shù)生成器依賴于分析、學(xué)習(xí)人類藝術(shù)家的作品來創(chuàng)造藝術(shù)。因此，不能排除潛在的侵犯知識(shí)產(chǎn)權(quán)法的可能性，無論是否有意。

總結(jié)

DALL－E 2完美嗎？作為一項(xiàng)正在完善的項(xiàng)目，答案是否定的。

但是，正如機(jī)器學(xué)習(xí)的本質(zhì)一樣，隨著時(shí)間的推移，該程序正變得越來越聰明，也越來越有能力。從純技術(shù)的角度來看，DALL－E 2是AI技術(shù)演進(jìn)的一大進(jìn)步。

人們普遍認(rèn)為人工智能系統(tǒng)在創(chuàng)意領(lǐng)域?qū)嶋H上無法超越人類，至少不會(huì)很快。但是DALL－E 2已經(jīng)使這個(gè)論點(diǎn)受到了沖擊。

然而盡管OpenAI已經(jīng)采取了一系列措施來預(yù)測和防止DALL－E 2的潛在濫用，但這并非萬無一失。在沒有任何道德界限的情況下可以使用的AI系統(tǒng)將在多久后出現(xiàn)？需要我們保持警惕。

無論如何，我們都需要密切關(guān)注這個(gè)新興行業(yè)。因?yàn)锳I藝術(shù)生成器及其背后的技術(shù)只會(huì)在未來的歲月里變得更加普遍。

原文由Shilpa Lama撰寫，中文內(nèi)容由元宇宙之心（MetaverseHub）團(tuán)隊(duì)編譯，如需轉(zhuǎn)載請聯(lián)系我們。

原文標(biāo)題 : 顛覆想象的AI繪畫：Dall-E 2使用指南

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請輸入評(píng)論內(nèi)容...

請輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

圖片新聞