近年來資訊巨擘熱中於開發「文轉圖」人工智慧(AI)系統,以機器學習方法處理數十億張配有圖說的影像,產出方便使用的運算模型。使用者輸入簡短文字描述,系統隨即產出相稱的新奇圖片。這類AI系統基本上是類神經網路,由上千億參數連接組合而成,多如繁星的參數值經由大量計算、處理巨量資料後調適而成。
2022年發佈的這類文轉圖系統包括新創公司OpenAI(由微軟資助)推出的DALL-E2以及Google所研發的Imagen。這兩項系統需要申請且僅能透過網際網路使用,使用者透過瀏覽器輸入指示,生成的圖片再經由網路傳回。運算模型是商業機密,置於雲端有如黑盒子。許多人好奇於這些黑盒子的能耐,於是跟這些公司申請使用許可,透過網路進行試驗。
德國慕尼黑大學以及新創公司Stability AI、Runway在同年8月共同推出的文轉圖系統Stable Diffusion,引發了一陣騷動,因為研究團隊把運算模型也公開了。儘管模型還是黑盒子,這次卻能下載到個人的電腦自行使用,更可以調適為新模型,或是開發新的資料介接和使用介面。應用情境頓時百家齊鳴,但也觸發新的議題。在網站Reddit有位發文者說,已使用該運算模型,套進插畫家孟格(Hollie Mengert)的作品,做出了可以自動產生迪士尼風格插畫的模型,供眾人試驗。孟格經朋友通知後,才知道這回事。她心中感受如何,不難想見。
此外,訓練資料本身的偏差會帶進機器學習產出的模型,例如生成的醫師照是白人遠多於黑人。經由網路介面使用的文轉圖系統,在文字輸入端或是圖片輸出端,提供服務的公司經常會再過濾選取,希望去除資料內在的偏見,或是以服務條款要求使用者不能惡搞。這些補救措施跟應用情境高度相關,實在掛一漏萬。來自研究倫理上的指引,尤其在資料使用方面就分外重要。
Stable Diffusion團隊不僅公開運算模型,也把程式以及用來訓練的所有影像檔案一併釋出給公眾使用檢視。……