多任務視覺Transformer：AI生成圖像同步偵測與生成器歸因

核心概念

以擴散模型（Stable Diffusion、DALL·E 3、Midjourney）為代表的生成式 AI 快速演進，使合成圖像與真實圖像之間的視覺差異幾近消失。現有研究大多停留在二元偵測（這張圖是真實的還是 AI 生成的？），對於「由哪個模型生成」的歸因問題則幾乎沒有系統性的統一處理。

Kumawat（2026）提出一個以 Vision Transformer（ViT）為骨幹的多任務框架，在單一模型中同時解決兩個問題：

偵測（Detection）：給定一張圖像，判斷是否為 AI 生成
歸因（Attribution）：若為 AI 生成，識別是由哪個生成器（如 Stable Diffusion、DALL·E 3 等）產出

架構核心是一個共享 Transformer 骨幹，加上兩個獨立的任務特定分類頭（task-specific classification heads）。共享骨幹讓模型同時學習 AI 圖像的通用特徵，任務頭則分別優化偵測與歸因兩個目標，實現知識互補。

為什麼要做多任務？

單純的偵測只能回答「真偽」，在法律取證、內容管理、數位版權保護等場景中，知道「這是 DALL·E 3 生成的」比只知道「這是 AI 生成的」具有更高的鑑識價值。多任務學習的優勢在於：偵測任務提供的通用 AI 圖像理解，會強化歸因任務的判斷依據，形成正向迴圈。

ViT 在此任務的優勢

卷積神經網路（CNN）擅長捕捉局部紋理特徵，但 ViT 的自注意力機制能捕捉全域上下文關係，對於辨識分散在整張圖像中的生成器特有模式（如特定頻率分布、筆觸風格）尤為重要。

關鍵要點

統一框架取代雙流水線：傳統做法是訓練獨立的偵測模型與歸因模型，本研究用單一 ViT 骨幹同時處理，降低推論成本與部署複雜度
跨任務知識遷移：偵測監督信號與歸因監督信號共同優化同一骨幹，實驗顯示兩個任務的準確率均獲提升
研究缺口的填補：現有公開研究在歸因（attribution）方面明顯少於偵測，本文是少數系統性處理「偵測＋歸因」統一框架的工作之一
可擴展至新生成器：框架設計允許在不重新訓練骨幹的情況下，為新出現的生成器增加新分類頭

實務應用

場景	說明
新聞核實	不只知道圖像是假的，還能提供「由哪個 AI 工具生成」的具體鑑識依據
數位版權爭議	協助判斷圖像來源，釐清是否使用特定商業模型生成
社群平台內容管理	自動標記 AI 生成內容並附帶生成器來源，提升透明度
法律取證	多任務輸出提供更細粒度的證據鏈

延伸觀點

2025-2026 年間，AI 生成圖像偵測領域出現三個共同趨勢，與本論文方向高度呼應：

1. 多任務學習已成主流路徑

GAMMA（arXiv:2509.10250）採用多任務監督搭配反向交叉注意力機制，讓偵測分類頭與像素級歸因頭互相修正彼此的表徵偏差，在 GenImage 基準上超越當前最佳 5.8%。這與 Kumawat 論文的設計哲學一致：共享表徵 + 分支輸出。

2. 少樣本適應成為歸因任務的實務關鍵

監督式對比學習框架（arXiv:2511.16541）展示了一個重要發現：只需每類 150 張圖像，就能以 91.3% 準確率識別新生成器，AUC 提升 14.70%。面對快速出現的新模型，無需大量重新標注資料即可擴展歸因能力。

3. 跨場景泛化仍是主要瓶頸

綜合評測（arXiv:2502.15176）指出，現有方法雖能應對跨家族泛化（如 GAN → 擴散模型），但跨場景泛化（不同資料集分佈）仍是主要缺口，只有少數系統展現穩健性。統一多任務框架在提升泛化方面有潛力，但需要更多跨場景驗證。

反向連結

以下頁面引用了本頁：

Multi-Domain Perception Transformer：跨域特徵融合 Deepfake 偵測（研究速遞）