近期,阿里云人工智能平臺 PAI 團隊發表的圖像編輯算法論文在 MM2024 上正式亮相發表。ACM MM(ACM國際多媒體會議)是國際多媒體領域的頂級會議,旨在為研究人員、工程師和行業專家提供一個交流平臺,以展示在多媒體領域的最新研究成果、技術進展和應用案例。其主題涵蓋了圖像處理、視頻分析、音頻處理、社交媒體和多媒體系統等廣泛領域。此次入選標志著阿里云人工智能平臺 PAI 在圖像編輯算法方面的研究獲得了學術界的充分認可。
文本到圖像合成 (TIS) 已成為計算機視覺與自然語言處理 (NLP) 交叉領域的重要前沿,其能夠根據文本描述生成視覺上引人注目的圖像。基于文本引導的圖像編輯任務使用戶能夠通過簡單的文字描述來指導圖像的修改,無需使用復雜的圖像編輯軟件或具備專業知識即可實現編輯效果。其中 Traing-free 的文本引導圖像編輯 (TIE) 已成為一個重要的研究方向,利用預訓練的 TIS 模型,直接通過文本提示來編輯圖像,用戶可以直接輸入文本,對圖像進行多種編輯操作,包括顏色變化、物體的添加或去除、風格轉換等。這種交互式編輯方式顯著降低了圖像編輯的門檻,使得創意表達變得更加便捷和個性化。
盡管當前的 TIE 算法取得了顯著進展,但它們仍存在一些局限性。如圖1所示,現有 TIE 方法在編輯多個對象時面臨挑戰。多對象編輯的復雜性會導致編輯對象丟失(例如,丟失一個蘋果)、屬性缺失(例如,斑點)和背景保留不完整等問題。
圖1. 圖像編輯的效果對比以及我們提出方法的結果
在本文中,我們提出了 VICTORIA 編輯算法,它利用語言知識來解決在對象場景編輯中因缺失目標(如對象、屬性和背景)而導致的問題。VICTORIA 通過分析輸入編輯文本中單詞之間的依存關系,并將這種關系反映在注意層的中間表示中,從而修正并生成目標圖像。圖2展示了 VICTORIA 的整體框架。首先,我們通過控制自注意機制來確保原始圖像和編輯后圖像之間的空間一致性。其次,VICTORIA 分析輸入編輯文本中單詞之間的依存關系,并在生成目標編輯圖像的過程中主動干預交叉注意力圖,從而提升目標編輯區域的生成結果。最后,VICTORIA 通過交叉注意圖進行圖像部分掩碼,有效保留原始圖像中無需被編輯的區域。
圖 2:VICTORIA 在對圖像進行編輯的過程示意圖
VICTORIA 偽代碼如下:
圖 3:VICTORIA 在合成圖像編輯和真實圖像編輯場景下的偽代碼
圖4展示了 VICTORIA 的編輯結果,它成功地修改了原始圖像中多個物體的各種屬性、風格、場景和類別。
圖 4:VICTORIA編輯結果示例
圖5對比展示了 VICTORIA 與其他一些 SOTA 圖像編輯技術的效果。無論是對真實照片還是合成圖像,VICTORIA 均展現出了高效的編輯能力。在所有的案例中,VICTORIA 都能夠實現與描述提示高度一致的精細編輯,同時最大限度地保留了原圖的結構細節。
圖 5:VICTORIA與其他編輯方法的對比
為了更好地服務開源社區,這一算法的源代碼已經貢獻在自然語言處理算法框架 EasyNLP 中,歡迎各界從業人員和研究者使用。
阿里云人工智能平臺 PAI 長期招聘正式員工/實習生。團隊專注于深度學習算法研究與應用,重點聚焦大語言模型和多模態 AIGC 大模型的應用算法研究和應用。簡歷投遞和咨詢:chengyu.wcy@alibaba-inc.com。
論文信息
論文名字:Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing
論文作者:劉冰雁、汪誠愚、黃俊、賈奎
論文pdf鏈接:https://openreview.net/pdf?id=efTur2naAS