近日,谷歌在人工智能領(lǐng)域再掀波瀾,宣布推出基于Gemma模型的三款全新變體:MedGemma、SignGemma和DolphinGemma。這些模型分別針對醫(yī)療、手語翻譯和海豚語言研究領(lǐng)域,展現(xiàn)了AI技術(shù)在跨領(lǐng)域應(yīng)用的巨大潛力。以下,AIbase為您詳細解讀這三款模型的亮點與應(yīng)用前景。
MedGemma:革新醫(yī)療AI,助力精準診療
MedGemma是谷歌專為醫(yī)療領(lǐng)域打造的AI模型,提供兩個版本以滿足不同需求。4B多模態(tài)模型能夠處理圖像與文本的組合任務(wù),經(jīng)過針對胸部X光片、皮膚科圖像、眼科圖像和病理切片等醫(yī)療數(shù)據(jù)的預(yù)訓練,展現(xiàn)了在醫(yī)療影像診斷、報告生成和患者分診等任務(wù)中的強大能力。27B文字推理模型則專注于純文本處理,憑借更強的推理能力,適用于病歷分析、醫(yī)療問答等需要深入理解的場景。這兩款模型均可在單塊GPU上高效運行,為醫(yī)療開發(fā)者提供了靈活的開發(fā)選擇。
谷歌表示,MedGemma通過其Health AI Developer Foundations計劃發(fā)布,旨在加速醫(yī)療應(yīng)用的開發(fā)。未來,開發(fā)者可利用這些模型構(gòu)建更智能的醫(yī)療工具,為精準醫(yī)療注入新動能。
SignGemma:打破溝通壁壘,手語翻譯更進一步
SignGemma是一款專為手語翻譯設(shè)計的開放模型,重點支持美國手語(ASL)到英語的翻譯。這款模型能夠?qū)⑹终Z動作轉(zhuǎn)化為口語文本,為聾病患者和開發(fā)者提供了全新的交互方式。據(jù)悉,SignGemma在手語理解方面表現(xiàn)卓越,被譽為“迄今為止最強大的手語理解模型”。
谷歌計劃在未來進一步擴展SignGemma的多語言支持,助力全球聾病社區(qū)實現(xiàn)無障礙溝通。開發(fā)者可基于此模型開發(fā)創(chuàng)新應(yīng)用,例如實時手語翻譯工具或教育平臺,為聾病群體帶來更多便利。
DolphinGemma:解碼海豚語言,探索跨物種溝通
DolphinGemma是谷歌與Wild Dolphin Project(WDP)和喬治亞理工學院合作開發(fā)的創(chuàng)新模型,旨在分析和生成海豚的復(fù)雜聲音。這款模型基于40年積累的北大西洋斑點海豚聲學數(shù)據(jù),能夠識別簽名哨聲、脈沖爆裂聲等特定聲音模式,并預(yù)測聲音序列,類似于人類語言模型的預(yù)測機制。
DolphinGemma已集成到WDP的CHAT(Cetacean Hearing Augmentation Telemetry)系統(tǒng)中,通過智能手機界面實現(xiàn)實時海豚聲音分析。研究人員甚至嘗試通過合成哨聲與海豚進行簡單交互,例如請求海豚與特定物體互動。谷歌計劃于2025年夏季將DolphinGemma開源,允許更多研究者將其應(yīng)用于其他鯨類物種,加速跨物種溝通的研究進程。
開源與未來:AI賦能跨領(lǐng)域創(chuàng)新
谷歌強調(diào),這三款模型均基于Gemma架構(gòu),兼顧高效性和適應(yīng)性。MedGemma現(xiàn)已通過Health AI Developer Foundations計劃開放使用,SignGemma和DolphinGemma也將在未來陸續(xù)開源。 然而,Gemma系列的非標準許可條款也引發(fā)了一些開發(fā)者對商業(yè)應(yīng)用的擔憂,未來谷歌可能需要進一步優(yōu)化許可政策以提升模型的商業(yè)化潛力。
技術(shù)與社會價值的雙贏
從醫(yī)療診斷到手語翻譯,再到海豚語言研究,谷歌的三大Gemma模型變體展現(xiàn)了AI技術(shù)在解決實際問題和探索未知領(lǐng)域的無限可能。MedGemma為醫(yī)療行業(yè)帶來了高效工具,SignGemma推動了無障礙溝通,而DolphinGemma則為人類與自然界的對話打開了新窗口。AIbase認為,這些創(chuàng)新不僅體現(xiàn)了技術(shù)的前瞻性,也彰顯了AI在社會價值與科學研究中的重要作用。
標簽:谷歌 Gemma 模型變體 AI醫(yī)療 手語翻譯 海豚語言