OpenAI推出DALL-E 2更聰明, 輸入文字就能產出圖片,還可以做編輯-科學人雜誌
產業趨勢

OpenAI推出DALL-E 2更聰明, 輸入文字就能產出圖片,還可以做編輯

2022/04/15 數位時代
OpenAI今年(2022年)4月推出更新的AI製圖模型DALL-E 2,新功能讓圖片更逼真,甚至還能進行編輯。


▲(圖片來源:OpenAI)




非營利AI(人工智慧)研究組織OpenAI於2021年初推出了AI製圖模型DALL-E,DALL-E為藝術家薩爾瓦多‧達利(Salvador Dali)和機器人瓦力(WALL-E)的合成詞。使用者只要在這個名為DALL-E的AI製圖模型中輸入敘述文字,就能產生相應的圖片,而日前OpenAI也推出了升級後的版本DALL-E 2,產出圖像不但更逼真,甚至還能編輯圖片。

DALL-E是以OpenAI去年推出的電腦視覺系統CLIP作為基礎開發的製圖模型,OpenAI將圖像壓縮成一系列單字,並學習去預測接下來會出現什麼。

不論敘述有多複雜,OpenAI表示就算是測試時沒有碰過的概念,DALL-E也能產出與敘述相符的圖片,雖然視覺表達的能力仍較有限,不過以首次的測試來說已經是很驚人的表現。

本月推出的第二代版本DALL-E 2有以下三個新功能:高解析、編輯和變化版。


▲DALL-E 2製成的圖片更加精緻和逼真,解析度大幅提升。(圖片來源:OpenAI)


首先由DALL-E 2製成的圖片更加精緻和逼真,解析度也從原本的256 x 256像素提升至1,024 x 1,024 像素。


▲使用者可以自行決定物體出現的位置。(圖片來源:OpenAI)


而本次更新的版本也可以對現有圖像進行編輯,也就是一般所說的「圖像修復(Inpainting)」,使用者可以運用文字敘述新增、替代或是移除圖片上的物品,例如移除桌上的杯子,或是新增一盤水果,又或是把杯子替換成花瓶,還能考慮到光影及正確素材的選擇,甚至融合兩張現有圖片。


▲DALL-E 2依據用戶提供的圖片,重新製作成和原圖風格類似的變化版。(圖片來源:OpenAI)


除此之外,DALL-E 2可以依據用戶提供的圖片,重新製作成和原圖風格類似的變化版(Variation),並且它會提供多個版本的成品供用戶選擇,每個版本都略有不同,但整體的風格和特徵還是一致的。

DALL-E這套模型尚未公開發表,只有開發人員能夠「有限制的使用」,這或許是因為OpenAI意識到深偽(Deepfake)和AI製圖的濫用所帶來的風險,所以有關仇恨、騷擾、暴力、自殘等敏感內容,或是會誤導社會的虛假內容都會受到限制,而目前生成的所有圖片皆要通過人工審查,也無法分享圖片給其他人。

即使DALL-E 2的實用性看起來已經很高了,而OpenAI也希望此模型可以加入自己的API工具集裡,未來可以在第三方APP中使用這個功能,開發團隊也表示會繼續分階段進行測試,希望藉由反饋來評估如何用安全的方式發布這項技術。

資料來源:OpenAIThe Verge Tech CrunchInteresting Engineering


■本文經合作媒體「數位時代」授權使用


【數位時代延伸閱讀】

  1. 美國人工智慧獨角獸Scale AI 讓企業更有效率, 華裔天才少年要用AI翻轉全球各產業
  2. 機器人掌握你的一顰一笑!人工智慧能夠分辨讀情緒,背後原理是什麼?





# 關鍵字:數位時代AI大數據
更多文章
活動推薦更多
追蹤科學人