中國電競網(wǎng)

中國電競網(wǎng)

字節(jié)跳動攜手港大與華中科技大學(xué)推出UniTok,革新視覺分詞技術(shù)

阿修羅 243 AIbase基地

近日,字節(jié)跳動聯(lián)合香港大學(xué)和華中科技大學(xué)共同推出了全新的視覺分詞器 UniTok。這款工具不僅能在視覺生成和理解任務(wù)中發(fā)揮作用,還在技術(shù)上進(jìn)行了重要創(chuàng)新,解決了傳統(tǒng)分詞器在細(xì)節(jié)捕捉與語義理解之間的矛盾。

UniTok 采用了多碼本量化技術(shù),能夠?qū)D像特征分割成多個小塊,并用獨立的子碼本進(jìn)行量化。這種方法極大地提升了視覺 token 的表示能力,使得處理圖像時能夠更加精細(xì)。比如,UniTok 在 ImageNet 數(shù)據(jù)集上的零樣本分類準(zhǔn)確率達(dá)到了78.6%,而圖像重建質(zhì)量也僅為0.38,遠(yuǎn)超現(xiàn)有的分詞器。

UniTok 的核心功能包括統(tǒng)一視覺表示和高質(zhì)量圖像重建。它能將圖像編碼為離散的視覺 token,這些 token 不僅可以用于圖像生成(例如根據(jù)文本生成圖像),還可以用于視覺理解(例如回答與圖像相關(guān)的問題)。此外,UniTok 結(jié)合了對比學(xué)習(xí)和重建損失,確保生成的視覺 token 與文本描述之間的對齊,從而提升視覺理解的能力。

在技術(shù)原理上,UniTok 的多碼本量化使得視覺 token 的詞匯量可以指數(shù)級增長。而其使用的多頭注意力模塊則更好地保留了原始 token 中的語義信息,使得分解后的特征表達(dá)能力得以提升。整個訓(xùn)練過程遵循統(tǒng)一的目標(biāo),確保圖像細(xì)節(jié)的準(zhǔn)確重建,同時優(yōu)化生成和理解任務(wù)。

UniTok 不僅在視覺領(lǐng)域表現(xiàn)出色,還為多模態(tài)大語言模型(MLLM)的發(fā)展提供了強有力的支持。它將生成的視覺 token 映射到多模態(tài)語言模型的 token 空間,推動了視覺與語言的統(tǒng)一處理。這種技術(shù)進(jìn)步不僅提升了圖像生成的效率,還為教育、醫(yī)療影像分析等多個領(lǐng)域帶來了新的應(yīng)用前景。

未來,UniTok 有望在多個場景中得到廣泛應(yīng)用,比如作為多模態(tài)模型的視覺輸入模塊,提升圖文信息處理能力;根據(jù)文本生成細(xì)節(jié)豐富的圖像,助力創(chuàng)意設(shè)計;或是在電商平臺中進(jìn)行跨模態(tài)檢索與推薦,從而提高用戶體驗。

項目地址:https://github.com/FoundationVision/UniTok


標(biāo)簽: