日产精品久久久久婷婷,国产精品1区,超碰95资源站,乱码Av一区二区三区,懂色蜜偷拍,亚洲69精品,精品久久久污污,亚洲成人人体久久久,欧美色图五月天

報(bào)告服務(wù)熱線400-068-7188

2025年中國(guó)多模態(tài)大模型行業(yè)主要模型 主要多模態(tài)大模型處理能力表現(xiàn)出色【組圖】

分享到:
20 黃纓杰 ? 2025-05-22 15:00:52  來(lái)源:前瞻產(chǎn)業(yè)研究院 E64207G0

行業(yè)主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);騰訊(00700.HK, TCEHY);科大訊飛(002230.SZ);萬(wàn)興科技(300624.SZ);三六零(601360.SH);昆侖萬(wàn)維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態(tài)大模型類(lèi)型及綜合對(duì)比

視覺(jué)+語(yǔ)言的多模態(tài)大模型目前主流方法是:借助預(yù)訓(xùn)練好的大語(yǔ)言模型和圖像編碼器,用一個(gè)圖文特征對(duì)齊模塊來(lái)連接,從而讓語(yǔ)言模型理解圖像特征并進(jìn)行更深層的問(wèn)答推理。這樣可以利用已有的大量單模態(tài)訓(xùn)練數(shù)據(jù)訓(xùn)練得到的單模態(tài)模型,減少對(duì)于高質(zhì)量圖文對(duì)數(shù)據(jù)的依賴(lài),并通過(guò)特征對(duì)齊、指令微調(diào)等方式打通兩個(gè)模態(tài)的表征。

圖表1:多模態(tài)大模型類(lèi)型及綜合對(duì)比

多模態(tài)大模型類(lèi)型-CLIP

CLIP是OpenAI提出的連接圖像和文本特征表示的對(duì)比學(xué)習(xí)方法。CLIP是利用文本信息訓(xùn)練一個(gè)可以實(shí)現(xiàn)zero-shot的視覺(jué)模型。利用預(yù)訓(xùn)練好的網(wǎng)絡(luò)去做分類(lèi)。具體來(lái)說(shuō),給網(wǎng)絡(luò)一堆分類(lèi)標(biāo)簽,比如cat,dog,bird,利用文本編碼器得到向量表示。然后分別計(jì)算這些標(biāo)簽與圖片的余弦相似度;最終相似度最高的標(biāo)簽即是預(yù)測(cè)的分類(lèi)結(jié)果。論文提到,相比于單純地給定分類(lèi)標(biāo)簽,給定一個(gè)句子的分類(lèi)效果更好。比如一種句子模板A photo of a.,后面填入分類(lèi)標(biāo)簽。這種句子模板叫做 prompt(提示)。句子模板的選擇很有講究,還專(zhuān)門(mén)討論了prompt engineering,測(cè)試了好多種類(lèi)的句子模板。提示信息有多種,下圖可以看到它用不同的類(lèi)別替換一句話中不同的詞,形成不同的標(biāo)簽。

圖表2:多模態(tài)大模型類(lèi)型一:CLIP

模態(tài)大模型類(lèi)型-Flamingo

Flamingo是一門(mén)多模態(tài)大型語(yǔ)言模型 (LLM)于 2022年推出。視覺(jué)和語(yǔ)言組件的工作原理如下:視覺(jué)編碼器將圖像或視頻轉(zhuǎn)換為嵌入(數(shù)字列表)。與CLIP不同,F(xiàn)lamingo可以生成文本響應(yīng)。從簡(jiǎn)化的角度來(lái)看,F(xiàn)lamingo是 CLIP +語(yǔ)言模型,并添加了技術(shù),使語(yǔ)言模型能夠根據(jù)視覺(jué)和文本輸入生成文本標(biāo)記。Flamingo的4個(gè)數(shù)據(jù)集:2個(gè)(圖像、文本)對(duì)數(shù)據(jù)集、1個(gè)(視頻、文本)對(duì)數(shù)據(jù)集和1個(gè)交錯(cuò)的圖像和文本數(shù)據(jù)集。

圖表3:多模態(tài)大模型類(lèi)型二:Flamingo

多模態(tài)大模型類(lèi)型- BLIP

BLIP(Bootstrapping Language-lmage Pretraining)是由Salesforce在2022年提出的多模態(tài)預(yù)訓(xùn)練模型,它旨在統(tǒng)一視覺(jué)語(yǔ)言任務(wù)的理解與生成能力,并通過(guò)對(duì)噪聲數(shù)據(jù)的處理來(lái)提高模型性能口。BLIP的創(chuàng)新主要有兩個(gè)方面:與CLIP相比,BLIP不僅處理圖像和文本的對(duì)齊問(wèn)題,還旨在解決包括圖像生成、視覺(jué)問(wèn)答和圖像描述等更復(fù)雜的任務(wù)。BLIP采用了“引導(dǎo)學(xué)習(xí)”的方式,通過(guò)自監(jiān)督的方式來(lái)增強(qiáng)模型對(duì)語(yǔ)言和視覺(jué)信息的理解。這些特點(diǎn)使其在處理圖像和文本數(shù)據(jù)方面展現(xiàn)了卓越的性能,成為眾多領(lǐng)域解決復(fù)雜問(wèn)題的強(qiáng)大工具。

圖表4:多模態(tài)大模型類(lèi)型三:BLIP

多模態(tài)大模型類(lèi)型-LLaMA

使用視覺(jué)編碼器CLIP ViT-L/14+語(yǔ)言解碼器LLaMA構(gòu)成多模態(tài)大模型,然后使用生成的數(shù)據(jù)進(jìn)行指令微調(diào)。輸入圖片X經(jīng)過(guò)與訓(xùn)練好的視覺(jué)編碼器的到圖片特征Z,圖片特征Z經(jīng)過(guò)一個(gè)映射矩陣W轉(zhuǎn)化為視覺(jué)Token H,這樣Vison Token Hv與Language Token Hq指令就都在同一個(gè)特征空間,拼接后一起輸入大模型。這里的映射層W也可以替換為更復(fù)雜的網(wǎng)絡(luò)來(lái)提升性能,比如Flamingo中用的gated cross-attentio,BLIP-2中用的Q-former。

圖表5:多模態(tài)大模型類(lèi)型四:LLaVA

更多本行業(yè)研究分析詳見(jiàn)前瞻產(chǎn)業(yè)研究院《全球及中國(guó)多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告

同時(shí)前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)新賽道研究投資可行性研究、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、產(chǎn)業(yè)招商、產(chǎn)業(yè)圖譜、產(chǎn)業(yè)大數(shù)據(jù)、智慧招商系統(tǒng)、行業(yè)地位證明、IPO咨詢(xún)/募投可研專(zhuān)精特新小巨人申報(bào)、十五五規(guī)劃等解決方案。如需轉(zhuǎn)載引用本篇文章內(nèi)容,請(qǐng)注明資料來(lái)源(前瞻產(chǎn)業(yè)研究院)。

更多深度行業(yè)分析盡在【前瞻經(jīng)濟(jì)學(xué)人APP】,還可以與500+經(jīng)濟(jì)學(xué)家/資深行業(yè)研究員交流互動(dòng)。更多企業(yè)數(shù)據(jù)、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】,性?xún)r(jià)比最高功能最全的企業(yè)查詢(xún)平臺(tái)。

前瞻產(chǎn)業(yè)研究院 - 深度報(bào)告 REPORTS

2025-2030年全球及中國(guó)多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告
2025-2030年全球及中國(guó)多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告

本報(bào)告前瞻性、適時(shí)性地對(duì)多模態(tài)大模型行業(yè)的發(fā)展背景、供需情況、市場(chǎng)規(guī)模、競(jìng)爭(zhēng)格局等行業(yè)現(xiàn)狀進(jìn)行分析,并結(jié)合多年來(lái)多模態(tài)大模型行業(yè)發(fā)展軌跡及實(shí)踐經(jīng)驗(yàn),對(duì)多模態(tài)大...

查看詳情

本文來(lái)源前瞻產(chǎn)業(yè)研究院,內(nèi)容僅代表作者個(gè)人觀點(diǎn),本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問(wèn)題,請(qǐng)聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請(qǐng)聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

如在招股說(shuō)明書(shū)、公司年度報(bào)告中引用本篇文章數(shù)據(jù),請(qǐng)聯(lián)系前瞻產(chǎn)業(yè)研究院,聯(lián)系電話:400-068-7188。

p10 q0 我要投稿

分享:

品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››

前瞻經(jīng)濟(jì)學(xué)人

專(zhuān)注于中國(guó)各行業(yè)市場(chǎng)分析、未來(lái)發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國(guó)產(chǎn)業(yè)咨詢(xún)領(lǐng)導(dǎo)者,專(zhuān)業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻數(shù)據(jù)庫(kù)
企查貓
作者 黃纓杰
產(chǎn)業(yè)研究院、分析師
1901229
關(guān)注
310
文章
前瞻經(jīng)濟(jì)學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟(jì)學(xué)家互動(dòng)交流讓您成為更懂趨勢(shì)的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢(xún)寶)App
×

掃一掃
下載《前瞻經(jīng)濟(jì)學(xué)人》APP提問(wèn)

 
在線咨詢(xún)
×
在線咨詢(xún)

項(xiàng)目熱線 0755-33015070

AAPP
前瞻經(jīng)濟(jì)學(xué)人APP下載二維碼

下載前瞻經(jīng)濟(jì)學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號(hào)

掃一掃關(guān)注我們

我要投稿

×
J
鄂伦春自治旗| 泸溪县| 樟树市| 钟祥市| 安远县| 辽源市| 民乐县| 微山县| 河北区| 博爱县| 板桥市| 吉安县| 外汇| 江油市| 绥芬河市| 吉木萨尔县| 常宁市| 股票| 项城市| 靖宇县| 江达县| 海盐县| 鲁甸县| 莱西市| 丘北县| 嘉兴市| 罗江县| 灵石县| 衡阳县| 安多县| 崇明县| 阿图什市| 简阳市| 延川县| 乌鲁木齐县| 济南市| 瑞丽市| 区。| 尖扎县| 桃园县| 洛川县|