字節(jié)跳動攜手港大與華中科技大學推出UniTok，革新視覺分詞技術

2025-05-08 阿修羅 265 AIbase基地

近日，字節(jié)跳動聯(lián)合香港大學和華中科技大學共同推出了全新的視覺分詞器 UniTok。這款工具不僅能在視覺生成和理解任務中發(fā)揮作用，還在技術上進行了重要創(chuàng)新，解決了傳統(tǒng)分詞器在細節(jié)捕捉與語義理解之間的矛盾。

UniTok 采用了多碼本量化技術，能夠將圖像特征分割成多個小塊，并用獨立的子碼本進行量化。這種方法極大地提升了視覺 token 的表示能力，使得處理圖像時能夠更加精細。比如，UniTok 在 ImageNet 數據集上的零樣本分類準確率達到了78.6%，而圖像重建質量也僅為0.38，遠超現有的分詞器。

UniTok 的核心功能包括統(tǒng)一視覺表示和高質量圖像重建。它能將圖像編碼為離散的視覺 token，這些 token 不僅可以用于圖像生成（例如根據文本生成圖像），還可以用于視覺理解(例如回答與圖像相關的問題)。此外，UniTok 結合了對比學習和重建損失，確保生成的視覺 token 與文本描述之間的對齊，從而提升視覺理解的能力。

在技術原理上，UniTok 的多碼本量化使得視覺 token 的詞匯量可以指數級增長。而其使用的多頭注意力模塊則更好地保留了原始 token 中的語義信息，使得分解后的特征表達能力得以提升。整個訓練過程遵循統(tǒng)一的目標，確保圖像細節(jié)的準確重建，同時優(yōu)化生成和理解任務。

UniTok 不僅在視覺領域表現出色，還為多模態(tài)大語言模型（MLLM）的發(fā)展提供了強有力的支持。它將生成的視覺 token 映射到多模態(tài)語言模型的 token 空間，推動了視覺與語言的統(tǒng)一處理。這種技術進步不僅提升了圖像生成的效率，還為教育、醫(yī)療影像分析等多個領域帶來了新的應用前景。

未來，UniTok 有望在多個場景中得到廣泛應用，比如作為多模態(tài)模型的視覺輸入模塊，提升圖文信息處理能力;根據文本生成細節(jié)豐富的圖像，助力創(chuàng)意設計;或是在電商平臺中進行跨模態(tài)檢索與推薦，從而提高用戶體驗。

項目地址：https://github.com/FoundationVision/UniTok

標簽：

本文地址： http://www.sdoldhj.cn/ai/20250508/205.html