2025 年中國多模態(tài)大模型行業(yè)主要模型主要多模態(tài)大模型處理能力表現(xiàn)出色

2025

05/22

20:18

評(píng)論

行業(yè)主要上市公司：阿里巴巴 ( 09988.HK，BABA.US ) ; 百度 ( 09888.HK，BIDU.US ) ; 騰訊 ( 00700.HK， TCEHY ) ;科大訊飛 ( 002230.SZ ) ;萬興科技 ( 300624.SZ ) ;三六零 ( 601360.SH ) ;昆侖萬維 ( 300418.SZ ) ; 云從科技 ( 688327.SH ) ;拓爾思 ( 300229.SZ ) 等

多模態(tài)大模型類型及綜合對(duì)比

視覺 + 語言的多模態(tài)大模型目前主流方法是：借助預(yù)訓(xùn)練好的大語言模型和圖像編碼器，用一個(gè)圖文特征對(duì)齊模塊來連接，從而讓語言模型理解圖像特征并進(jìn)行更深層的問答推理。這樣可以利用已有的大量單模態(tài)訓(xùn)練數(shù)據(jù)訓(xùn)練得到的單模態(tài)模型，減少對(duì)于高質(zhì)量圖文對(duì)數(shù)據(jù)的依賴，并通過特征對(duì)齊、指令微調(diào)等方式打通兩個(gè)模態(tài)的表征。

多模態(tài)大模型類型 -CLIP

CLIP 是 OpenAI 提出的連接圖像和文本特征表示的對(duì)比學(xué)習(xí)方法。CLIP 是利用文本信息訓(xùn)練一個(gè)可以實(shí)現(xiàn) zero-shot 的視覺模型。利用預(yù)訓(xùn)練好的網(wǎng)絡(luò)去做分類。具體來說，給網(wǎng)絡(luò)一堆分類標(biāo)簽，比如 cat，dog，bird，利用文本編碼器得到向量表示。然后分別計(jì)算這些標(biāo)簽與圖片的余弦相似度 ; 最終相似度最高的標(biāo)簽即是預(yù)測的分類結(jié)果。論文提到，相比于單純地給定分類標(biāo)簽，給定一個(gè)句子的分類效果更好。比如一種句子模板 A photo of a.，后面填入分類標(biāo)簽。這種句子模板叫做 prompt ( 提示 ) 。句子模板的選擇很有講究，還專門討論了 prompt engineering，測試了好多種類的句子模板。提示信息有多種，下圖可以看到它用不同的類別替換一句話中不同的詞，形成不同的標(biāo)簽。

多模態(tài)大模型類型 -Flamingo

Flamingo 是一門多模態(tài)大型語言模型 ( LLM ) 于 2022 年推出。視覺和語言組件的工作原理如下：視覺編碼器將圖像或視頻轉(zhuǎn)換為嵌入 ( 數(shù)字列表 ) 。與 CLIP 不同，F(xiàn)lamingo 可以生成文本響應(yīng)。從簡化的角度來看，F(xiàn)lamingo 是 CLIP + 語言模型，并添加了技術(shù)，使語言模型能夠根據(jù)視覺和文本輸入生成文本標(biāo)記。Flamingo 的 4 個(gè)數(shù)據(jù)集：2 個(gè) ( 圖像、文本 ) 對(duì)數(shù)據(jù)集、1 個(gè) ( 視頻、文本 ) 對(duì)數(shù)據(jù)集和 1 個(gè)交錯(cuò)的圖像和文本數(shù)據(jù)集。

多模態(tài)大模型類型 - BLIP

BLIP ( Bootstrapping Language-lmage Pretraining ) 是由 Salesforce 在 2022 年提出的多模態(tài)預(yù)訓(xùn)練模型，它旨在統(tǒng)一視覺語言任務(wù)的理解與生成能力，并通過對(duì)噪聲數(shù)據(jù)的處理來提高模型性能口。BLIP 的創(chuàng)新主要有兩個(gè)方面：與 CLIP 相比，BLIP 不僅處理圖像和文本的對(duì)齊問題，還旨在解決包括圖像生成、視覺問答和圖像描述等更復(fù)雜的任務(wù)。BLIP 采用了 " 引導(dǎo)學(xué)習(xí) " 的方式，通過自監(jiān)督的方式來增強(qiáng)模型對(duì)語言和視覺信息的理解。這些特點(diǎn)使其在處理圖像和文本數(shù)據(jù)方面展現(xiàn)了卓越的性能，成為眾多領(lǐng)域解決復(fù)雜問題的強(qiáng)大工具。

多模態(tài)大模型類型 -LLaMA

使用視覺編碼器 CLIP ViT-L/14+ 語言解碼器 LLaMA 構(gòu)成多模態(tài)大模型，然后使用生成的數(shù)據(jù)進(jìn)行指令微調(diào)。輸入圖片 X 經(jīng)過與訓(xùn)練好的視覺編碼器的到圖片特征 Z，圖片特征 Z 經(jīng)過一個(gè)映射矩陣 W 轉(zhuǎn)化為視覺 Token H，這樣 Vison Token Hv 與 Language Token Hq 指令就都在同一個(gè)特征空間，拼接后一起輸入大模型。這里的映射層 W 也可以替換為更復(fù)雜的網(wǎng)絡(luò)來提升性能，比如 Flamingo 中用的 gated cross-attentio，BLIP-2 中用的 Q-former。

前瞻網(wǎng)

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場。

99色在线视频-99色综合-99视频精品全国免费-99视频全部免费-能在线观看的一区二区三区-嗯!啊!使劲用力在线观看

2025 年中國多模態(tài)大模型行業(yè)主要模型主要多模態(tài)大模型處理能力表現(xiàn)出色

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

99色在线视频-99色综合-99视频精品全国免费-99视频全部免费-能在线观看的一区二区三区-嗯!啊!使劲用力在线观看

2025 年中國多模態(tài)大模型行業(yè)主要模型 主要多模態(tài)大模型處理能力表現(xiàn)出色

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

2025 年中國多模態(tài)大模型行業(yè)主要模型主要多模態(tài)大模型處理能力表現(xiàn)出色