任你躁XXXXX麻豆精品,国产亚洲精品久久久久久打不开,甘蔗地里公与小娟最火的一句,伊人激情AV一区二区三区,中文字幕乱码在线人视频,《朋友夫妇:交换》3,农民工嫖妓真实过程,乖宝真紧H嘶爽老子H,大尺度床震捏胸呻吟视频,国产精品日韩欧美一区二区三区

News Contents
新聞資訊

DeepSeek開源新模型:單張A100日處理可超20萬頁數據

發表日期2025/10/21 8:47:27      瀏覽次數:

DeepSeek又發新模型了,這次是一個OCR 模型。10月20日,DeepSeek在Github開源了這一新模型,并發布《DeepSeek-OCR:Contexts Optical Compression》(《DeepSeek OCR:上下文光學壓縮》)論文,解釋了這一成果。

論文提到,當前的大語言模型在處理過程中面臨著重大的計算挑戰,文本內容過長,因此團隊探索了一種具有潛力的解決方案:利用視覺模態作為文本信息的高效壓縮介質。

具體來說,這一OCR模型可以將文本壓縮成視覺模態,所謂“一圖勝千言”,這樣可以消耗更少的Token,測試顯示,通過文本到圖像的方法可以實現近 10 倍無損上下文壓縮,OCR 準確率還能保持在 97% 以上。

論文提到,在實際應用中,單張A100-40G顯卡,可支持每日20萬頁以上的大語言模型/視覺語言模型訓練數據生成。

簡單來看,團隊的思路是,既然一張圖就能包含大量文字信息,同時用的 Token 更少,那就可以將文本轉成圖像,這就是題目中提到的“光學壓縮”,用視覺模態壓縮文本信息。這一結果顯示出該方法在長上下文壓縮和大模型的記憶遺忘機制等研究方向上具有相當潛力。

DeepSeek-OCR由兩個核心組件組成,其中DeepEncoder(編碼器)負責圖像特征提取和壓縮,DeepSeek3B-MoE(解碼器)負責從壓縮后的視覺 Token 中重建文本。

解碼器用的是 DeepSeek-3B-MoE 架構。雖然只有 3B 參數,但采用了 MoE(混合專家)設計,64 個專家中激活 6 個,再加 2 個共享專家,實際激活參數約 5.7 億。這也讓模型既有 30 億參數模型的表達能力,又保持了5億參數模型的推理效率。

實驗數據顯示,當文本 token 數量在視覺 token 的 10 倍以內(即壓縮率小于10倍)時,模型的解碼(OCR)精度可達 97%;即使在壓縮率達到 20倍的情況下,OCR 準確率仍保持在約60%。

DeepSeek 團隊在論文里還提出了具有想象力的未來——用光學壓縮模擬人類的遺忘機制。人類的記憶會隨時間衰退,越久遠的事情記得越模糊,那是否AI也能這樣?于是,團隊設計將更久遠的上下文,逐步縮小渲染圖像的大小,以進一步減少token消耗。隨著圖像越來越小,內容也越來越模糊,最終達到“文本遺忘”的效果,就像人類記憶的衰退曲線一樣。

論文中提到,這還是個需要進一步調查的早期研究方向,但這對于平衡理論上無限的上下文信息是一個很好的方法,如果真能實現,對于處理超長上下文將是個巨大突破。因此,這次發布的DeepSeek-OCR 表面上是個 OCR 模型,但從另一個角度來看,其研究代表了一個有前景的新方向。

有網友認為,這是一步好棋,人類就是閱讀視覺文字,同時理解物理世界的時空概念,如果能統一語言和視覺,可能通向超級智能。

這一OCR模型發布不久就在GitHub獲得超過1400顆星星。從論文署名來看,這一項目由 DeepSeek 三位研究員 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。行業消息顯示,其中一作 Haoran Wei 曾在階躍星辰工作過,曾主導開發了旨在實現“第二代 OCR”的 GOT-OCR2.0 系統,因此由其主導 DeepSeek 的 OCR 項目也在情理之中。

不過,DeepSeek遲遲不發R2這樣的新模型,市場已經有一些聲音認為其落后了,也有觀點認為,DeepSeek目前只是在修煉“內功”,為下一代模型蓄力。



來源: 第一財經資訊

撫順眾聯網絡公司轉載

撫順網絡公司 撫順網絡 撫順軟件公司


撫順眾聯網絡成立于2002年,一直專注于高品質網站建設,服務!