99色在线视频-99色综合-99视频精品全国免费-99视频全部免费-能在线观看的一区二区三区-嗯!啊!使劲用力在线观看

2025 年中國多模態(tài)大模型行業(yè)主要模型 主要多模態(tài)大模型處理能力表現(xiàn)出色

創(chuàng)投圈
2025
05/22
20:18
分享
評(píng)論

行業(yè)主要上市公司:阿里巴巴 ( 09988.HK,BABA.US ) ; 百度 ( 09888.HK,BIDU.US ) ; 騰訊 ( 00700.HK, TCEHY ) ;科大訊飛 ( 002230.SZ ) ;萬興科技 ( 300624.SZ ) ;三六零 ( 601360.SH ) ;昆侖萬維 ( 300418.SZ ) ; 云從科技 ( 688327.SH ) ;拓爾思 ( 300229.SZ ) 等

多模態(tài)大模型類型及綜合對(duì)比

視覺 + 語言的多模態(tài)大模型目前主流方法是:借助預(yù)訓(xùn)練好的大語言模型和圖像編碼器,用一個(gè)圖文特征對(duì)齊模塊來連接,從而讓語言模型理解圖像特征并進(jìn)行更深層的問答推理。這樣可以利用已有的大量單模態(tài)訓(xùn)練數(shù)據(jù)訓(xùn)練得到的單模態(tài)模型,減少對(duì)于高質(zhì)量圖文對(duì)數(shù)據(jù)的依賴,并通過特征對(duì)齊、指令微調(diào)等方式打通兩個(gè)模態(tài)的表征。

多模態(tài)大模型類型 -CLIP

CLIP 是 OpenAI 提出的連接圖像和文本特征表示的對(duì)比學(xué)習(xí)方法。CLIP 是利用文本信息訓(xùn)練一個(gè)可以實(shí)現(xiàn) zero-shot 的視覺模型。利用預(yù)訓(xùn)練好的網(wǎng)絡(luò)去做分類。具體來說,給網(wǎng)絡(luò)一堆分類標(biāo)簽,比如 cat,dog,bird,利用文本編碼器得到向量表示。然后分別計(jì)算這些標(biāo)簽與圖片的余弦相似度 ; 最終相似度最高的標(biāo)簽即是預(yù)測的分類結(jié)果。論文提到,相比于單純地給定分類標(biāo)簽,給定一個(gè)句子的分類效果更好。比如一種句子模板 A photo of a.,后面填入分類標(biāo)簽。這種句子模板叫做 prompt ( 提示 ) 。句子模板的選擇很有講究,還專門討論了 prompt engineering,測試了好多種類的句子模板。提示信息有多種,下圖可以看到它用不同的類別替換一句話中不同的詞,形成不同的標(biāo)簽。

模態(tài)大模型類型 -Flamingo

Flamingo 是一門多模態(tài)大型語言模型 ( LLM ) 于 2022 年推出。視覺和語言組件的工作原理如下:視覺編碼器將圖像或視頻轉(zhuǎn)換為嵌入 ( 數(shù)字列表 ) 。與 CLIP 不同,F(xiàn)lamingo 可以生成文本響應(yīng)。從簡化的角度來看,F(xiàn)lamingo 是 CLIP + 語言模型,并添加了技術(shù),使語言模型能夠根據(jù)視覺和文本輸入生成文本標(biāo)記。Flamingo 的 4 個(gè)數(shù)據(jù)集:2 個(gè) ( 圖像、文本 ) 對(duì)數(shù)據(jù)集、1 個(gè) ( 視頻、文本 ) 對(duì)數(shù)據(jù)集和 1 個(gè)交錯(cuò)的圖像和文本數(shù)據(jù)集。

多模態(tài)大模型類型 - BLIP

BLIP ( Bootstrapping Language-lmage Pretraining ) 是由 Salesforce 在 2022 年提出的多模態(tài)預(yù)訓(xùn)練模型,它旨在統(tǒng)一視覺語言任務(wù)的理解與生成能力,并通過對(duì)噪聲數(shù)據(jù)的處理來提高模型性能口。BLIP 的創(chuàng)新主要有兩個(gè)方面:與 CLIP 相比,BLIP 不僅處理圖像和文本的對(duì)齊問題,還旨在解決包括圖像生成、視覺問答和圖像描述等更復(fù)雜的任務(wù)。BLIP 采用了 " 引導(dǎo)學(xué)習(xí) " 的方式,通過自監(jiān)督的方式來增強(qiáng)模型對(duì)語言和視覺信息的理解。這些特點(diǎn)使其在處理圖像和文本數(shù)據(jù)方面展現(xiàn)了卓越的性能,成為眾多領(lǐng)域解決復(fù)雜問題的強(qiáng)大工具。

多模態(tài)大模型類型 -LLaMA

使用視覺編碼器 CLIP ViT-L/14+ 語言解碼器 LLaMA 構(gòu)成多模態(tài)大模型,然后使用生成的數(shù)據(jù)進(jìn)行指令微調(diào)。輸入圖片 X 經(jīng)過與訓(xùn)練好的視覺編碼器的到圖片特征 Z,圖片特征 Z 經(jīng)過一個(gè)映射矩陣 W 轉(zhuǎn)化為視覺 Token H,這樣 Vison Token Hv 與 Language Token Hq 指令就都在同一個(gè)特征空間,拼接后一起輸入大模型。這里的映射層 W 也可以替換為更復(fù)雜的網(wǎng)絡(luò)來提升性能,比如 Flamingo 中用的 gated cross-attentio,BLIP-2 中用的 Q-former。

前瞻網(wǎng)

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場。

相關(guān)熱點(diǎn)

相關(guān)推薦

1
3
主站蜘蛛池模板: 欧美综合区自拍亚洲综合图区 | 亚洲玖玖| 男女视频在线观看网站 | 日韩国产精品欧美一区二区 | 在线观看国产视频 | 午夜影片 | 在线视频亚洲 | 国产午夜精品不卡视频 | 我想看一级黄色大片 | 最新欧美精品一区二区三区 | 一级做a爰片性色毛片黄书 一级做a爰片性色毛片16美国 | 免费观看日批视频 | 国产免费看网站v片不遮挡 国产免费黄视频 | 日韩精品一区二区三区中文字幕 | 爽爽影院在线免费观看 | 久久影视一区 | 久久免费观看国产精品 | 久久乐播 | 福利网在线观看 | 好紧好湿好黄的视频 | 国内欧美一区二区三区 | 最近的中文字幕视频完整 | 免费在线观看的毛片 | 精品亚洲一区二区三区 | 午夜片在线| 成人18在线视频播放 | 老司机日日摸夜夜摸精品影院 | 成年人在线免费观看网站 | 色视频免费观看高清完整 | 欧美成人三级视频 | 一级毛片一级毛片 | 911精品国产亚洲日本美国韩国 | 北条麻妃中文字幕在线观看 | 一级黄色欧美 | 人人爽天天爽夜夜爽曰 | 成人久久18免费网站 | 亚洲激情| 国产 另类 在线 欧美日韩 | 国产大片一区 | 性香港xxxxx免费视频播放 | 午夜湿影院多多影院 |