▲(圖片來源:OpenAI)
非營利AI(人工智慧)研究組織OpenAI於2021年初推出了AI製圖模型DALL-E,DALL-E為藝術家薩爾瓦多‧達利(Salvador Dali)和機器人瓦力(WALL-E)的合成詞。使用者只要在這個名為DALL-E的AI製圖模型中輸入敘述文字,就能產生相應的圖片,而日前OpenAI也推出了升級後的版本DALL-E 2,產出圖像不但更逼真,甚至還能編輯圖片。
DALL-E是以OpenAI去年推出的電腦視覺系統CLIP作為基礎開發的製圖模型,OpenAI將圖像壓縮成一系列單字,並學習去預測接下來會出現什麼。
不論敘述有多複雜,OpenAI表示就算是測試時沒有碰過的概念,DALL-E也能產出與敘述相符的圖片,雖然視覺表達的能力仍較有限,不過以首次的測試來說已經是很驚人的表現。
本月推出的第二代版本DALL-E 2有以下三個新功能:高解析、編輯和變化版。
▲DALL-E 2製成的圖片更加精緻和逼真,解析度大幅提升。(圖片來源:OpenAI)
首先由DALL-E 2製成的圖片更加精緻和逼真,解析度也從原本的256 x 256像素提升至1,024 x 1,024 像素。
▲使用者可以自行決定物體出現的位置。(圖片來源:OpenAI)
而本次更新的版本也可以對現有圖像進行編輯,也就是一般所說的「圖像修復(Inpainting)」,使用者可以運用文字敘述新增、替代或是移除圖片上的物品,例如移除桌上的杯子,或是新增一盤水果,又或是把杯子替換成花瓶,還能考慮到光影及正確素材的選擇,甚至融合兩張現有圖片。
▲DALL-E 2依據用戶提供的圖片,重新製作成和原圖風格類似的變化版。(圖片來源:OpenAI)
除此之外,DALL-E 2可以依據用戶提供的圖片,重新製作成和原圖風格類似的變化版(Variation),並且它會提供多個版本的成品供用戶選擇,每個版本都略有不同,但整體的風格和特徵還是一致的。
DALL-E這套模型尚未公開發表,只有開發人員能夠「有限制的使用」,這或許是因為OpenAI意識到深偽(Deepfake)和AI製圖的濫用所帶來的風險,所以有關仇恨、騷擾、暴力、自殘等敏感內容,或是會誤導社會的虛假內容都會受到限制,而目前生成的所有圖片皆要通過人工審查,也無法分享圖片給其他人。
即使DALL-E 2的實用性看起來已經很高了,而OpenAI也希望此模型可以加入自己的API工具集裡,未來可以在第三方APP中使用這個功能,開發團隊也表示會繼續分階段進行測試,希望藉由反饋來評估如何用安全的方式發布這項技術。
資料來源:OpenAI、The Verge、
Tech Crunch、
Interesting Engineering
■本文經合作媒體「數位時代」授權使用
【數位時代延伸閱讀】
- 美國人工智慧獨角獸Scale AI 讓企業更有效率, 華裔天才少年要用AI翻轉全球各產業
- 機器人掌握你的一顰一笑!人工智慧能夠分辨讀情緒,背後原理是什麼?