字節跳動水印技術論文入選ACM MM 2023

2023-08-18 10:40:09 來源：中關村在線

近日，字節跳動產品安全多媒體與AI安全團隊的數字水印研究論文入選ACM MM 2023，研究論文關注數字水印在現實應用中所面臨的挑戰，致力于解決高清原創圖像經過多種復雜攻擊后的侵權或溯源等問題。

(資料圖片)

ACM Multimedia（ACM MM）是國際計算機學會（ACM）的多媒體年會，由ACM的SIGMM多媒體特別興趣小組主辦。ACM MM是全球首屈一指的多媒體領域學術會議，也是中國計算機學會推薦的多媒體領域A類國際學術會議。

據了解，本次研究論文《Practical Deep Dispersed Watermarking with Synchronization and Fusion 》，提出了一種基于深度學習的圖像離散水印方案（DWSF），該方案能夠有效提高圖像水印在實際應用中的魯棒性和隱蔽性，可促進深度圖像水印技術在數字版權、內容可信和數據安全等防護體系建設中的作用。

人工智能時代下的知識產權及版權保護

近年來隨著多媒體技術和多媒體內容的爆發式增長，多媒體內容的數據安全和版權保護需求激增。尤其當前生成式人工智能技術快速發展和普及，人工智能生成內容呈現快速增長和廣泛傳播的趨勢，而人工智能生成的內容存在易混淆、易誤認和被濫用的風險，對人工智能生成內容的標記、識別和溯源的需求愈加迫切。

對這兩方面的現實需求，多媒體數字水印均可提供有效的技術方案。另外，隨著深度學習的發展，研究者發現在深度學習技術在數字水印領域有極大的應用潛力。但目前在實際應用場景中，深度學習水印技術仍存在一些挑戰有待突破，以深度圖像水印為例，當前大多數方案在魯棒性和隱蔽性方面仍有明顯短板。

針對深度圖像水印在實際應用場景中面臨的挑戰，多媒體與AI安全團隊研發了一套原創的深度圖像水印技術框架（DWSF），不僅在圖像視覺隱蔽性、文件體積增長率方面達到了極好的效果，而且提升了深度學習水印在幾何變換攻擊、混合攻擊等眾多攻擊場景下的魯棒性。在當前多種深度學習圖像水印技術中，DWSF水印技術在多方面的測試中均達到最佳性能。

深度圖像水印技術提升水印魯棒性

據介紹，為了解決現有深度圖像水印技術在實際應用場景中的諸多弊端，論文提出了一套原創的深度圖像水印方案，由離散嵌入、水印同步、消息融合三個核心模塊有機組合而成。方案框架圖如上所示，給定一張載體圖像，該框架在嵌入時隨機選取多個圖像塊并利用編碼器模型嵌入水印；在提取階段，為應對水印圖像可能經過多種攻擊疊加的復雜情況，該框架引入了一個精細分割模型來定位水印圖像塊的位置，并矯正圖像經過的幾何變換，再用解碼器從水印圖像塊中提取水印，最后綜合所有提取結果確定最終水印信息。三個核心模塊的詳細介紹如下。

離散嵌入

在水印嵌入模塊中，論文采用編碼器-解碼器的模型結構，如下圖所示，先用編碼器嵌入水印、再用解碼器提取水印，同時為了提升水印的魯棒性，在訓練過程中對編碼器編碼后的圖像進行數據增強處理（壓縮、加噪等），再將其輸入到解碼器中進行提取。最后，通過設計合適的損失函數確保模型能高效收斂。

相比于現有工作（在整張圖像上嵌入一個水印），該方案另辟蹊徑采用了離散嵌入方式。首先從圖像中隨機挑選部分子圖像塊，再利用編碼器對每個圖像塊嵌入同樣的水印信息，從而保證水印區域具有較好的稀疏性。這種策略可以靈活適配各種分辨率圖像而不必重新訓練模型，同時具備多種優點：

○稀疏性：僅修改圖像的部分區域，能夠實現更好的不可察覺性，而且對文件體積增長有著更小的影響；

○隨機性：水印隨機地分布在圖像上，攻擊者很難針對性擦除，對于裁剪、遮擋、共謀攻擊等的魯棒性更強；

○一致性：鑒于單張圖像上存在多個水印圖像塊且嵌著相同的水印，可以互相校驗與糾正，容錯性更優。

水印同步

在水印同步模塊中，該論文引入了一個輕量級分割模型用于定位水印嵌入的區域，并且采用了Pad&Split的訓練-推理策略來提高定位的泛化性和效率（對任意分辨率圖片）。在訓練時，采用固定分辨率的圖片；而在推理時，通過填充（Pad）使其可以分塊（Split）成多個與訓練集尺寸相同的子圖片，便于并行處理以及縮小與訓練數據集的差異。即使圖像受到幾何攻擊而變形，相應的預測掩碼也將保持相同的變形，從而在多種未知的幾何攻擊下也能矯正圖片，實現水印同步的目標。

消息融合

矯正后的水印圖像塊輸入解碼器可得到每個塊的水印解碼結果，但單個塊的解碼結果存在出錯的可能。為提高容錯能力，鑒于單張圖像上的所有水印圖像塊嵌著相同水印，本論文引入了基于相似度的消息融合算法來確定最終的水印結果，使得在最壞情況下，如所有塊的解碼結果都出錯，也能得出正確的水印，算法示意圖如下。

數據已成為新生產要素，數字水印技術保駕護航

據悉，該論文原創性地提出了一種基于深度學習的圖像離散水印方案（DWSF），具有如下幾個突出優勢：

●可適配任意分辨率的圖片：不同場景中圖片的分辨率往往差異很大，本方案可靈活適配多種多樣的分辨率，并且不影響泛化性。

●圖像視覺質量更好：通常水印如果添加地過于明顯會影響用戶體驗，而本方案提出的稀疏水印塊修改的圖片區域更少（<=20%面積），對用戶體驗的影響更小。

●圖像文件體積增長率更低：圖片的分辨率越來越大，對存儲空間的影響也越來越大。而本方案由于對圖片的修改更少（<=20%面積），因此文件大小的比特增長率更低、對存儲空間的影響更小。

●魯棒性更強：該方案在應對復雜圖像攻擊具有更高的魯棒性，顯著提高了溯源的可靠性。

據透露，上述優勢使得該數字水印方案的適用范圍更廣、用戶感知更優、溯源更可靠。目前該方案已應用到抖音、西瓜視頻、飛書，以及火山引擎視頻云、數據安全中心和飛連等產品中。

此外，多媒體和AI安全團隊也將繼續深入行業應用場景，聯合國內外高校進行創新研究，為行業提供更優、更全面的水印解決方案，為人工智能時代下的版權保護、內容可信和數據安全貢獻一份力量。（作者：孔弘霖）

關鍵詞：