日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

10倍壓縮率,97%解碼精度!DeepSeek開源新模型,為何贏得海內外關注

澎湃新聞記者 范佳來
2025-10-21 22:25
來源:澎湃新聞
? 10%公司 >
字號

DeepSeek開源新模型:用視覺模式實現(xiàn)上下文壓縮。

10月20日,DeepSeek宣布開源最新大模型DeepSeek-OCR。所謂的OCR,據(jù)DeepSeek在論文中解釋稱,是通過光學2D映射壓縮長上下文可行性的初步研究。DeepSeek-OCR由兩部分組成:DeepEncoder和作為解碼器的DeepSeek3B-MoE-A570M。DeepEncoder作為核心引擎,設計為在高分辨率輸入下保持低激活,同時實現(xiàn)高壓縮比,以確保視覺tokens數(shù)量優(yōu)化且可管理。

通俗而言,這是一種視覺-文本壓縮范式,通過用少量的視覺token來表示原本需要大量文本token的內容,以此降低大模型的計算開銷。

據(jù)公布的論文名單顯示,該項目由DeepSeek三位研究員Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但這三位核心作者都頗為低調,其中一作作者Haoran Wei曾在階躍星辰工作過,曾主導開發(fā)旨在實現(xiàn)“第二代 OCR”的GOT-OCR2.0系統(tǒng)。

DeepSeek-OCR的架構分為兩部分。一是DeepEncoder,一個專為高壓縮、高分辨率文檔處理設計的視覺編碼器;二是DeepSeek3B-MoE,一個輕量級混合專家語言解碼器。這款剛開源不久的新模型,發(fā)布后就得到海外科技媒體廣泛贊美,有網(wǎng)友盛贊:“這是AI的JPEG時刻?!?/p>

前特斯拉AI總監(jiān)、OpenAI創(chuàng)始成員安德烈·卡帕西(Andrej Karpathy)在社交媒體高度評價DeepSeek的新模型,他表示,自己相當喜歡新的DeepSeek-OCR論文,“它是一個很好的OCR模型(可能比dots稍微差一點),是的,數(shù)據(jù)收集等等,但無論如何都不重要。對我來說更有趣的部分(尤其是作為一個以計算機視覺為核心,暫時偽裝成自然語言的人)是像素是否比文本更適合作為LLM的輸入。作為輸入,文本標記是否浪費且糟糕?!?/p>

根據(jù)他的設想,或許所有LLM的輸入都只應該是圖像。即便是純文本內容,也應該先渲染成圖片再輸入給模型,其中理由包括:信息壓縮效率更高、像素更通用、支持雙向注意力、可淘汰存在安全隱患的分詞器(Tokenizer)。

特斯拉創(chuàng)始人馬斯克(Elon Musk)也現(xiàn)身評論區(qū),并表示:“從長遠來看,AI模型超過99%的輸入和輸出都將是光子,沒有其他任何東西可以規(guī)?;??!?/p>

知名科技媒體《麻省理工科技評論》解釋稱,DeepEncoder是整個系統(tǒng)的關鍵所在。它的設計目標在于,在處理高分辨率輸入圖像的同時,保持較低的激活內存,并實現(xiàn)極高的壓縮比。為達到這一目的,DeepEncoder融合兩種成熟的視覺模型架構:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力機制(window attention)見長,擅長處理局部細節(jié),構成編碼器的前半部分;后者則依賴密集的全局注意力機制(global attention),能夠捕獲整體知識信息。

《麻省理工科技評論》表示,除了文本識別性能,DeepSeek-OCR還具備較強的“深度解析”能力。這得益于其訓練數(shù)據(jù)中包含了圖表、化學分子式、幾何圖形等多樣化的視覺內容。因此,模型不僅能識別標準文本,還能對文檔中嵌入的復雜元素進行結構化解析。例如,它可以將報告中的圖表轉換為表格數(shù)據(jù),將化學文獻中的分子式輸出為SMILES格式,或解析幾何圖形中的線段關系。這種超越傳統(tǒng)文本識別的能力,拓展了其在金融、科研、教育等專業(yè)領域的應用空間。

DeepSeek介紹,實驗表明,當文本tokens數(shù)量在視覺tokens的10倍以內(即壓縮比<10×)時,模型可達到97%的OCR精度。即使在20×壓縮比下,OCR精度仍保持在約60%。這為歷史長上下文壓縮和LLM中的記憶遺忘機制等研究領域展示可觀前景。

DeepSeek-OCR還初步驗證上下文光學壓縮的可行性,證明模型可以從少量視覺tokens中有效解碼超過10倍數(shù)量的文本tokens。DeepSeek-OCR也是一個高度實用的模型,可大規(guī)模生產(chǎn)預訓練數(shù)據(jù),“未來,我們將進行數(shù)字-光學文本交錯預訓練、大海撈針測試等進一步評估,繼續(xù)推動這一有前景的研究方向?!?/p>

據(jù)海外科技媒體分析,研究團隊表示,在基準測試中,DeepSeek-OCR優(yōu)于多個主流模型,且使用的視覺tokens數(shù)量少得多。此外,單張A100-40G GPU每天可生成超過20萬頁的訓練數(shù)據(jù),可為大型語言模型和視覺-語言模型的開發(fā)提供支持。

前網(wǎng)易副總裁、杭州研究院執(zhí)行院長汪源發(fā)文表示,DeepSeek-OCR模型是一個專門能“讀懂”圖片里文字的AI模型。但厲害的地方不是簡單“識字”,是采用了一種非常新穎的思路:把文字當成圖片來處理和壓縮。

汪源認為,可以把它想象成一個超級高效的“視覺壓縮器”,傳統(tǒng)的AI模型是直接“讀”文本,但 DeepSeek-OCR 是先“看”文本的圖像,然后把一頁文檔的圖片信息高度壓縮成很少的視覺tokens。DeepSeek-OCR的能力強在能把一篇1000字的文章,壓縮成100個視覺tokens。在十倍的壓縮下,識別準確率可以達到96.5%。

    責任編輯:是冬冬
    圖片編輯:朱偉輝
    校對:施鋆
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            国产精品国产精品偷麻豆| 国产在线操APP| 亚洲精品久久久一二三区| 国产无码免费视频| 国产亚洲精品久久久久久牛牛| 丰满人妻av一区二区三区 | 色哟哟免费网站| 免费无码黄十八禁网站| 国产午夜福利| 国产98在线 | 欧美| 亚洲中文久久精品无码软件| 欧美日韩不卡视频合集| 天天摸夜夜添人人| 久久精品囯产精品亚洲| 国产中文视频| china人妻一区av| 精品人妻中文字幕在线| 久久高清精品| 国产成人无码AⅤ片在线观看| 奇米影视亚洲春色| 人妻体体内射精一区二区| 色综合久久88色综合天天| 久久婷婷五月国产色综合 | Chinese黑人亚洲人videos| 亚洲精品美女久久久久99| 国内少妇一区二三区免费看| 亚洲欧洲日韩国内高清| 人人草人人玩| 久久热在线视频精品视频| 日本乱偷人妻中文字幕在线| 四虎成人精品永久免费av| xxxx.av| AV成人亚洲精选| 青草国产超碰人人添人人碱| 我在ktv被六个男人玩一晚上| 国产嫩草爆乳视频在线播放 | 国产精品观看99| 女性女同性aⅴ免费观女性恋| 一级女性全黄久久片免费| 操她射她视频| 亚洲欧美精品变态另|