10倍壓縮率，97%解碼精度！DeepSeek開源新模型，為何贏得海內外關注

澎湃新聞記者范佳來

2025-10-21 22:25

來源：澎湃新聞

DeepSeek開源新模型：用視覺模式實現(xiàn)上下文壓縮。

10月20日，DeepSeek宣布開源最新大模型DeepSeek-OCR。所謂的OCR，據(jù)DeepSeek在論文中解釋稱，是通過光學2D映射壓縮長上下文可行性的初步研究。DeepSeek-OCR由兩部分組成：DeepEncoder和作為解碼器的DeepSeek3B-MoE-A570M。DeepEncoder作為核心引擎，設計為在高分辨率輸入下保持低激活，同時實現(xiàn)高壓縮比，以確保視覺tokens數(shù)量優(yōu)化且可管理。

通俗而言，這是一種視覺-文本壓縮范式，通過用少量的視覺token來表示原本需要大量文本token的內容，以此降低大模型的計算開銷。

據(jù)公布的論文名單顯示，該項目由DeepSeek三位研究員Haoran Wei、Yaofeng Sun、Yukun Li共同完成，但這三位核心作者都頗為低調，其中一作作者Haoran Wei曾在階躍星辰工作過，曾主導開發(fā)旨在實現(xiàn)“第二代 OCR”的GOT-OCR2.0系統(tǒng)。

DeepSeek-OCR的架構分為兩部分。一是DeepEncoder，一個專為高壓縮、高分辨率文檔處理設計的視覺編碼器；二是DeepSeek3B-MoE，一個輕量級混合專家語言解碼器。這款剛開源不久的新模型，發(fā)布后就得到海外科技媒體廣泛贊美，有網(wǎng)友盛贊：“這是AI的JPEG時刻?！?/p>

前特斯拉AI總監(jiān)、OpenAI創(chuàng)始成員安德烈·卡帕西(Andrej Karpathy)在社交媒體高度評價DeepSeek的新模型，他表示，自己相當喜歡新的DeepSeek-OCR論文，“它是一個很好的OCR模型（可能比dots稍微差一點），是的，數(shù)據(jù)收集等等，但無論如何都不重要。對我來說更有趣的部分（尤其是作為一個以計算機視覺為核心，暫時偽裝成自然語言的人）是像素是否比文本更適合作為LLM的輸入。作為輸入，文本標記是否浪費且糟糕?！?/p>

根據(jù)他的設想，或許所有LLM的輸入都只應該是圖像。即便是純文本內容，也應該先渲染成圖片再輸入給模型，其中理由包括：信息壓縮效率更高、像素更通用、支持雙向注意力、可淘汰存在安全隱患的分詞器（Tokenizer）。

特斯拉創(chuàng)始人馬斯克（Elon Musk）也現(xiàn)身評論區(qū)，并表示：“從長遠來看，AI模型超過99%的輸入和輸出都將是光子，沒有其他任何東西可以規(guī)?；??！?/p>

知名科技媒體《麻省理工科技評論》解釋稱，DeepEncoder是整個系統(tǒng)的關鍵所在。它的設計目標在于，在處理高分辨率輸入圖像的同時，保持較低的激活內存，并實現(xiàn)極高的壓縮比。為達到這一目的，DeepEncoder融合兩種成熟的視覺模型架構：SAM（Segment Anything Model）和 CLIP（Contrastive Language–Image Pre-training）。前者以窗口注意力機制（window attention）見長，擅長處理局部細節(jié)，構成編碼器的前半部分；后者則依賴密集的全局注意力機制（global attention），能夠捕獲整體知識信息。

《麻省理工科技評論》表示，除了文本識別性能，DeepSeek-OCR還具備較強的“深度解析”能力。這得益于其訓練數(shù)據(jù)中包含了圖表、化學分子式、幾何圖形等多樣化的視覺內容。因此，模型不僅能識別標準文本，還能對文檔中嵌入的復雜元素進行結構化解析。例如，它可以將報告中的圖表轉換為表格數(shù)據(jù)，將化學文獻中的分子式輸出為SMILES格式，或解析幾何圖形中的線段關系。這種超越傳統(tǒng)文本識別的能力，拓展了其在金融、科研、教育等專業(yè)領域的應用空間。

DeepSeek介紹，實驗表明，當文本tokens數(shù)量在視覺tokens的10倍以內（即壓縮比<10×）時，模型可達到97%的OCR精度。即使在20×壓縮比下，OCR精度仍保持在約60%。這為歷史長上下文壓縮和LLM中的記憶遺忘機制等研究領域展示可觀前景。

DeepSeek-OCR還初步驗證上下文光學壓縮的可行性，證明模型可以從少量視覺tokens中有效解碼超過10倍數(shù)量的文本tokens。DeepSeek-OCR也是一個高度實用的模型，可大規(guī)模生產(chǎn)預訓練數(shù)據(jù)，“未來，我們將進行數(shù)字-光學文本交錯預訓練、大海撈針測試等進一步評估，繼續(xù)推動這一有前景的研究方向?！?/p>

據(jù)海外科技媒體分析，研究團隊表示，在基準測試中，DeepSeek-OCR優(yōu)于多個主流模型，且使用的視覺tokens數(shù)量少得多。此外，單張A100-40G GPU每天可生成超過20萬頁的訓練數(shù)據(jù)，可為大型語言模型和視覺-語言模型的開發(fā)提供支持。

前網(wǎng)易副總裁、杭州研究院執(zhí)行院長汪源發(fā)文表示，DeepSeek-OCR模型是一個專門能“讀懂”圖片里文字的AI模型。但厲害的地方不是簡單“識字”，是采用了一種非常新穎的思路：把文字當成圖片來處理和壓縮。

汪源認為，可以把它想象成一個超級高效的“視覺壓縮器”，傳統(tǒng)的AI模型是直接“讀”文本，但 DeepSeek-OCR 是先“看”文本的圖像，然后把一頁文檔的圖片信息高度壓縮成很少的視覺tokens。DeepSeek-OCR的能力強在能把一篇1000字的文章，壓縮成100個視覺tokens。在十倍的壓縮下，識別準確率可以達到96.5%。

責任編輯：是冬冬

圖片編輯：朱偉輝

校對：施鋆

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權不得轉載

我要舉報

#DeepSeek-OCR #DeepEncoder #Andrej #Karpathy