DeepSeek又發(fā)新模型了,這次是一個(gè)OCR 模型。10月20日,DeepSeek在Github開(kāi)源了這一新模型,并發(fā)布《DeepSeek-OCR:Contexts Optical Compression》(《DeepSeek OCR:上下文光學(xué)壓縮》)論文,解釋了這一成果。
論文提到,當(dāng)前的大語(yǔ)言模型在處理過(guò)程中面臨著重大的計(jì)算挑戰(zhàn),文本內(nèi)容過(guò)長(zhǎng),因此團(tuán)隊(duì)探索了一種具有潛力的解決方案:利用視覺(jué)模態(tài)作為文本信息的高效壓縮介質(zhì)。
具體來(lái)說(shuō),這一OCR模型可以將文本壓縮成視覺(jué)模態(tài),所謂“一圖勝千言”,這樣可以消耗更少的Token,測(cè)試顯示,通過(guò)文本到圖像的方法可以實(shí)現(xiàn)近 10 倍無(wú)損上下文壓縮,OCR 準(zhǔn)確率還能保持在 97% 以上。
論文提到,在實(shí)際應(yīng)用中,單張A100-40G顯卡,可支持每日20萬(wàn)頁(yè)以上的大語(yǔ)言模型/視覺(jué)語(yǔ)言模型訓(xùn)練數(shù)據(jù)生成。
簡(jiǎn)單來(lái)看,團(tuán)隊(duì)的思路是,既然一張圖就能包含大量文字信息,同時(shí)用的 Token 更少,那就可以將文本轉(zhuǎn)成圖像,這就是題目中提到的“光學(xué)壓縮”,用視覺(jué)模態(tài)壓縮文本信息。這一結(jié)果顯示出該方法在長(zhǎng)上下文壓縮和大模型的記憶遺忘機(jī)制等研究方向上具有相當(dāng)潛力。
DeepSeek-OCR由兩個(gè)核心組件組成,其中DeepEncoder(編碼器)負(fù)責(zé)圖像特征提取和壓縮,DeepSeek3B-MoE(解碼器)負(fù)責(zé)從壓縮后的視覺(jué) Token 中重建文本。
解碼器用的是 DeepSeek-3B-MoE 架構(gòu)。雖然只有 3B 參數(shù),但采用了 MoE(混合專(zhuān)家)設(shè)計(jì),64 個(gè)專(zhuān)家中激活 6 個(gè),再加 2 個(gè)共享專(zhuān)家,實(shí)際激活參數(shù)約 5.7 億。這也讓模型既有 30 億參數(shù)模型的表達(dá)能力,又保持了5億參數(shù)模型的推理效率。
實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)文本 token 數(shù)量在視覺(jué) token 的 10 倍以?xún)?nèi)(即壓縮率小于10倍)時(shí),模型的解碼(OCR)精度可達(dá) 97%;即使在壓縮率達(dá)到 20倍的情況下,OCR 準(zhǔn)確率仍保持在約60%。
DeepSeek 團(tuán)隊(duì)在論文里還提出了具有想象力的未來(lái)——用光學(xué)壓縮模擬人類(lèi)的遺忘機(jī)制。人類(lèi)的記憶會(huì)隨時(shí)間衰退,越久遠(yuǎn)的事情記得越模糊,那是否AI也能這樣?于是,團(tuán)隊(duì)設(shè)計(jì)將更久遠(yuǎn)的上下文,逐步縮小渲染圖像的大小,以進(jìn)一步減少token消耗。隨著圖像越來(lái)越小,內(nèi)容也越來(lái)越模糊,最終達(dá)到“文本遺忘”的效果,就像人類(lèi)記憶的衰退曲線一樣。
論文中提到,這還是個(gè)需要進(jìn)一步調(diào)查的早期研究方向,但這對(duì)于平衡理論上無(wú)限的上下文信息是一個(gè)很好的方法,如果真能實(shí)現(xiàn),對(duì)于處理超長(zhǎng)上下文將是個(gè)巨大突破。因此,這次發(fā)布的DeepSeek-OCR 表面上是個(gè) OCR 模型,但從另一個(gè)角度來(lái)看,其研究代表了一個(gè)有前景的新方向。
有網(wǎng)友認(rèn)為,這是一步好棋,人類(lèi)就是閱讀視覺(jué)文字,同時(shí)理解物理世界的時(shí)空概念,如果能統(tǒng)一語(yǔ)言和視覺(jué),可能通向超級(jí)智能。
這一OCR模型發(fā)布不久就在GitHub獲得超過(guò)1400顆星星。從論文署名來(lái)看,這一項(xiàng)目由 DeepSeek 三位研究員 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。行業(yè)消息顯示,其中一作 Haoran Wei 曾在階躍星辰工作過(guò),曾主導(dǎo)開(kāi)發(fā)了旨在實(shí)現(xiàn)“第二代 OCR”的 GOT-OCR2.0 系統(tǒng),因此由其主導(dǎo) DeepSeek 的 OCR 項(xiàng)目也在情理之中。
不過(guò),DeepSeek遲遲不發(fā)R2這樣的新模型,市場(chǎng)已經(jīng)有一些聲音認(rèn)為其落后了,也有觀點(diǎn)認(rèn)為,DeepSeek目前只是在修煉“內(nèi)功”,為下一代模型蓄力。
來(lái)源: 第一財(cái)經(jīng)資訊
撫順眾聯(lián)網(wǎng)絡(luò)公司轉(zhuǎn)載
撫順網(wǎng)絡(luò)公司 撫順網(wǎng)絡(luò) 撫順軟件公司
