深度求索發布DeepSeek-OCR:解密「光學壓縮」的文字速讀機制,為何AI學會遺忘反而省算力?
重點一:DeepSeek OCR 以「光學壓縮」技術處理寫滿文字的圖片,最高壓縮10倍且保留約97%資訊,讓AI可處理更長文件。
重點二:DeepSeek OCR 把文件當成圖片處理,用兩個擅長不同工作的模型分工合作,再用一個「16倍壓縮器」把需要計算的資料量大幅減少。
重點三:DeepSeek OCR 每天可以在單一 Nvidia A100 GPU 上處理超過 20 萬頁資料。如果使用 20 台伺服器,每台伺服器運行 8 塊 A100 處理器,吞吐量將躍升至每天 3,300 萬頁。
中國AI公司Deepseek(深度求索)於10月21日推出DeepSeek-OCR(光學文字辨識)系統,主打將以「影像」呈現的文字文件做高效率壓縮後再交由語言模型處理。其技術上核心訴求是:處理「影像中的文字」比直接處理「數位文字」更省算力。
而在應用上,這套系統的核心賣點也很簡單: 用更少的「視覺符號」(內部的影像單位)就能把文件讀懂,並輸出成可編輯的文字或結構化內容,包含表格、公式與圖表。
OCR讀起字來多有效率?DeepSeek技術報告指出,在維持約97%資訊的前提下,文字脈絡可被壓縮至最多10倍,從而延長LLM可承載的上下文長度,減少記憶體與推論成本。
系統也可將「對話歷史影像化並壓縮」,將較舊的聊天內容以低解析度保存,類似人類「漸漸遺忘」的機制:資料越久、越遠、越低解析,就越模糊。
記憶刻度 :時間從「剛發生」到「1年」,清晰度由「Crystal Clear」逐步變成「Almost Gone」,描述人類記憶隨時間自然衰退。
視覺刻度:距離從 10 cm 到 20 m,越遠越不清楚,對應「看得近清楚、遠則模糊」的直覺感受。
文字刻度(解析度):從「Gundam」到「Tiny」等級,解析度越低、需要的「視覺符號」越少,文字呈現也越模糊,象徵以圖片方式壓縮舊文本。
這樣的優勢主要瞄準長文件處理、跨頁表格與圖形理解,以及跨語言(約100種)文件抽取,並在維持原始版面或輸出純文字的彈性間取得平衡。
白話來說,處理更少的符號,意味著更快的處理、更低的成本。對需要大量掃描、歸檔和資料萃取的工作類型,是最直接的效率紅利。
OCR如拼裝車!3步驟把資料「切塊再瘦身」
技術上,OCR如何辦到?DeepSeek‑OCR的做法是:把一頁文件當成「圖片」丟給AI,先切塊、再瘦身,最後才請懂圖又懂字的模型來讀。
第一步,前處理引擎DeepEncoder把版面「劃重點」:段落在哪、表格在哪、圖形在哪,別讓後面的模型浪費力氣在邊角裝飾(這裡用的是臉書母公司Meta的SAM,專門做影像分割)。
第二步是「資訊減肥」。例如原本一張1,024×1,024的頁面,會變成4,096個「視覺單位」(token),先經過壓縮器直接砍到256個,類似把會議逐字稿濃縮成重點條列,將算力和記憶體省下來。
第三步則是「理解」。其利用OpenAI的CLIP,負責把「看到的區塊」對上「語意」,也就是判斷這段到底在說什麼、這張圖在表達什麼。而因為前面已經切塊並瘦身,所以CLIP不用面對整頁的雜訊。
結果,同樣的一頁文件,DeepSeek‑OCR通常只需要64到400個視覺token就能讀懂:一般簡報大約64個、書籍或報告約100個。而若遇到版面複雜的報紙,再打開所謂的「Gundam模式」把配額拉到最多800。對比傳統OCR動輒上千到上萬token,這套路線是「少算力、更多內容」。
進一步來說,DeepSeek‑OCR的輸入模式分成三類,以對應不同「視覺符號」數量,以測試在各種壓縮比例下的表現。
• Tiny|Small:固定尺寸(約 512、640),輸出 64 或 100 個視覺符號。適合字數不多、版面簡單的頁面,用少量符號就能還原內容。
• Base|Large:較大尺寸(約 1024、1280),輸出 256 或 400 符號。以「補邊」保留原始長寬比;有效符號會因黑邊扣除而少於名義值。
• Gundam|Gundam‑Master:動態模式,把頁面切成 n 個局部視野,再加一張全局視野。
一日處理3,300萬頁!OCR資料集與權重全面開放
在實務部署方面,DeepSeek-OCR宣稱以單顆Nvidia A100每日可處理約200,000頁;若以20台伺服器、每台8顆A100組成叢集,日處理量可達3,300萬頁。此吞吐量不僅可支援企業級文件工作流,也有助於為LLM建構海量文字語料。
研究團隊訓練時使用約3,000萬頁PDF(含近百種語言,其中中文與英文約2,500萬頁),並加入1,000萬張合成圖表、500萬份化學式、100萬份幾何圖形以強化多模態文件理解。
更重要的是,官方開放程式碼與模型權重,讓生態系可驗證與擴充此技術;在多語、保版面與純文字輸出之間提供彈性,適合長文件抽取、AI訓練語料建置,以及聊天機器人脈絡的「成本感知式」保存。
整體而言,DeepSeek-OCR以「影像壓縮+少量token」策略,將OCR從單純文字擷取,推進到可支援LLM長脈絡與結構化資料抽取的系統級能力。
英國資深網頁開發者Simon Willison實測指出,DeepSeek‑OCR 可在 NVIDIA Spark(ARM64 + CUDA)的環境中順利跑通,整體印象是:只要花時間選擇合適的「運行方式/提示」,DeepSeek‑OCR本身的模型表現「非常好」,足以在新硬體條件下完成高品質 OCR。
如何使用 DeepSeek OCR ?
一般讀者可用 Hugging Face 下載模型,安裝必要套件後,把圖片丟進範例程式即可做 OCR。其建議簡易流程如下:
事前準備:有一台可用的電腦。若沒有 NVIDIA 顯示卡,也能跑,但會較慢;Hugging Face 頁面示範是用 NVIDIA GPU、CUDA 11.8。
安裝工具:安裝 Python(建議 3.12)與套件管理工具(pip 即可)。
安裝必要套件:torch 2.6.0、transformers 4.46.3、tokenizers 0.20.3、einops、addict、easydict;加速可選擇安裝 flash-attn 2.7.3。
取得模型:從 Hugging Face 載入模型名稱 deepseek-ai/DeepSeek-OCR。
放入圖片:把要辨識文字的圖片檔(如掃描的合約、收據、海報)指定到程式,執行後就會輸出文字或 Markdown。
延伸閱讀:Canva回來了!AWS雲端服務全面修復完成,快打開看Perplexity、Coinbase⋯⋯能不能用?
資料來源:DeepSeek、Decoder、Simon Willison’s Weblog
本文初稿為AI編撰,整理.編輯/ 李先泰
更多報導
創新板可以當沖了!主管機關3大策略,朝「亞洲那斯達克」邁進
矽谷創投界炙手可熱的台灣人:陳恩平是誰?a16z也搶投資!他如何以「VC操刀手」逆轉人生?
其他人也在看


台股市值衝全球第8!證交所再為資本市場添柴火,創新板年底前鬆綁、拚兩年新增40家掛牌
今年台灣資本市場延續科技動能與外資回流效應,集中市場市值已達約89.4兆元,若合計櫃買市場,整體市值位列全球第8,創下史上最佳紀錄。 為了乘勝追擊,以達成金管會推動台灣成為「亞洲資產管理中心」的目標,證交所與櫃買中心雙姝,也就是李愛玲與陳麗卿兩位女總座,在週一(10/20)分別提出針對股票與債券市場即將推動的鬆綁。
今周刊 ・ 1 天前
實在賺不到錢!Automattic執行長親口認栽:6年前收購Tumblr成最大賠錢貨
Automattic執行長近期公開坦言,收購 Tumblr 是他「最大的失敗」,因該平台技術債高昂且持續虧損,營運成本遠超收入。
數位時代 ・ 23 小時前
基隆社福園區政策說明會登場 市府推環評加速公私協力開發進程
基隆市政府於日前(9/26)正式公告「基隆市社會福利綜合園區BOT+ROT案」,本月21日於集思北科大會議中心舉辦政策公告說明會,吸引長照、壽險、建設與金融產業等多家業者踴躍出席。
理財周刊 ・ 4 小時前

這2名鏡電視前董事退出後,投資凱思各千萬元…黃國昌「狗仔銀彈」哪裡來?捲入跟監情治首長風暴
民眾主席黃國昌涉入狗仔案持續延燒,他遭指控養狗仔跟監綠營政治人物,且相關人員的薪水都是由凱思國際公司支付。《鏡週刊》週二(10/21)再爆,凱思國際是由黃國昌太太的妹妹高翬,出資100萬成立。 對此,黃國昌回應,高翬以及其公司,從來都不是凱思國際的股東,也從來沒有匯款給凱思國際,若週刊今天沒有道歉、更正,應該律師就會採取法律行動。 王鴻薇助理張凱維日前被爆料,疑似兜售黃國昌狗仔集團的跟拍作品,20日再被爆疑似跟監警政署等情治機關首長。 律師陳又新表示,黃國昌是否透過謝幸恩、張凱維,有意識地搜集戰時中國解放軍最需要的民防情報,因此有必要從違反國安法第2條的角度,深入調查。
今周刊 ・ 10 小時前中美緊張與EPS上修動能降溫兩大風險,大摩示警美股短期宜審慎
【財訊快報/陳孟朔】外電報導,摩根士丹利(大摩)知名分析師威爾遜(Michael Wilson)指出,美股當前仍面臨兩大壓力來源——中美貿易緊張與企業盈餘(EPS)預期上修放緩——促使投資人短期維持審慎立場。他表示,標普500尚未完全收復10月初因貿易緊張升級而回吐的漲幅;同時,在財報季全面展開之際,分析師對每股盈餘(EPS)的上修動能降溫。此外,兩家地區性銀行曝露的放貸問題,凸顯信貸裂痕,進一步加劇市場不安。威爾遜在其報告中寫到,若要宣告短期進一步修正風險解除,需同時看到三項訊號:其一,更明確的貿易緩和跡象;其二,EPS預期修正轉趨穩定;其三,市場流動性更趨充裕。威爾遜上週曾警示,若中美貿易緊張未能在11月最後期限前化解,美股恐面臨最多約11%的回檔風險。儘管短線偏保守,他仍維持對經濟持續復甦的中期觀點不變,預期未來6至12個月基礎面將提供支撐。作為今年少數準確預測4月關稅引發拋售後市場強勁反彈的策略師之一,他強調在風險與機會並存下,資產配置宜保持靈活。
財訊快報 ・ 1 天前
買輝達晶片比Meta還多!最神秘獨角獸TikTok的AI豪賭背後,是後院著火
短影音平台TikTok母公司字節跳動,正努力尋求能同時安撫華府和北京的交易案,如今它還面臨另一道逆風:過去賴以維生的廣告營收成長正在放緩。 表面上的原因是,廣告營收已經不是字節跳動主要營收來源。《經濟學人》指出,每月至少有1.17億美國忠實用戶使用TikTok,但美國市場對TikTok而言,並非特別...
商業周刊 ・ 4 小時前
泰勒絲新專輯破美國紀錄!哈佛專家揭秘她的天才成功法則:滴水式進步
西洋天后泰勒絲(Taylor Swift)的新專輯《The Life of a Showgirl》於10月一推出便空降《告示牌》(Billboard)專輯榜第一名,並刷新多項紀錄:她超越嘻哈天王Drake、Jay-Z,成為史上擁有最多冠軍專輯的個人音樂人;首周銷量突破400萬張,也打破英國天后愛黛兒...
商業周刊 ・ 4 小時前
美規車進口零關稅、全面開放美豬,讓台灣關稅不疊加?卓揆喊談判持續正面進行中:兩條件最重要
有媒體報導指台美關稅談判,傳出可能以美規車進口零關稅、全面開放美豬等條件,達成不疊加稅率。行政院長卓榮泰表示,談判進度持續在正面地進行當中,副院長鄭麗君所領軍的團隊,也一直在做最後的一些書面和最後的整理。 卓揆說,台美雙方還是秉持和過去一樣,我方的立場在國家產業的利益之外,最重要的還是國人的健康與糧食的安全,所以有關各個項目的任何談判的進行,都在這個原則上去進行,不會有特別的例外或突出。 另外,副總統蕭美琴日前受訪時表示,台灣投資美國包含台積電(2330)生態系,遭中國國民批評是「德公移山」。 卓榮泰強調,台灣在AI一直是世界上領先的地位,政府持續會推出「AI新十大建設」,為的就是要延續、擴大在台灣的護國群山,「山在台灣、台灣就是山」,沒有人移得走。
今周刊 ・ 10 小時前
強茂飆不停不敢追?這檔合作夥伴反而低調受惠
近期功率元件大廠強茂(2481)主要受惠於功率半導體面臨中國大陸的出口限制令,因強茂與安世產品重疊性高,使得客戶積極對外尋找其他供應商,推升近期股價表現亮眼,今(21)日再創波段新高,將有望挑戰百元大關,其中作為強茂重要的合作夥伴虹冠電(3257)也值得留意。
理財周刊 ・ 22 小時前元智林志民獲國家講座 近10年唯一入選私校教授
(中央社記者許秩維台北21日電)元智大學今天表示,元智大學電機工程系講座教授林志民專注於人工智慧與電機工程領域研究,近日獲選第29屆「國家講座」主持人,也是近10年來唯一入選的私校教授。
中央社 ・ 1 天前美銀喊買、目標價上看300美元,AMD週一翻揚急漲3.21%創新猷
【財訊快報/陳孟朔】超微(美股代碼AMD)股價連續兩天回吐2.32%後,週一抽高7.48美元或3.21%,來到240.56美元創收市新高,日高繼史上新高在242.88美元,今年來大漲了99.16%,受惠美國銀行(美銀)重申「買進」評級,並將目標價自250美元上調至300美元,帶動買盤回流。美銀指出,AMD所處的個人電腦、伺服器、高階遊戲、深度學習及相關應用,合計蘊含數千億美元級的潛在市場機會,而AMD在上述領域的價值占比目前不足30%,提升空間可期。評估重點在於AI與高效能運算需求延續,推動中長期營收與獲利成長曲線。基本面上,市場聚焦三大驅動:其一,雲端與企業端AI加速器出貨節奏;其二,EPYC伺服器處理器份額持續提升;其三,搭載本地AI運算的Ryzen平台帶動AI PC換機潮。若三線同步推進,產品組合優化可望強化毛利結構與現金流。市場人士提到,風險面仍需關注,包括與競品在AI GPU與伺服器CPU領域的價格與性能競逐、雲端客戶資本支出節奏變化、供應鏈良率與成本波動等。任何一項不如預期,均可能影響短線本益比的承擔度。
財訊快報 ・ 1 天前【盤前焦點】美股4大指數齊揚 法人:台股有望創高
(中央社記者張建中台北2025年10月21日電)美股20日全面收高,道瓊工業指數上揚515.97點,那斯達克指數揚升310.57點。法人表示,台指期夜盤一度攀高至27952點,創下歷史新高,終場上漲67點,收在27847點,台股不排除有機會續創新高。企業獲利表現強勁,同時投資人寄望美中兩國貿易緊張關係緩和,美股20日收高。道瓊工業指數上漲515.97點,漲幅1.12%;標普500指數上漲71.12點,漲幅1.07%。那斯達克指數上漲310.57點,漲幅1.37%;費城半導體指數揚升107.05點,漲幅1.58%。台股20日開高走高,盤中寫歷史新高27768.27點,終場上漲386.26點,收27688.63點,刷新收盤新高紀錄。國內外產業訊息方面,被動元件廠國巨(2327)公開收購日本芝浦電子(Shibaura Electronics)於20日完成,應募率達87.3%,相關作業預計今年第4季完成。國巨與芝浦電子21日將於日本東京舉辦聯合記者會,國巨董事長陳泰銘及芝浦電子社長葛西晃將一同出席。環泥(1104)董事會通過授權子公司利永環球科技以1600萬美元(約新台幣4.89億元)收購美國
中央社財經 ・ 1 天前亞馬遜AWS大當機逾12小時,多國網站服務陸續恢復
【財訊快報/陳孟朔】作為全球雲基礎設施龍頭的亞馬遜(美股代碼AMZN)雲服務(AWS)週一發生重大中斷,最早在美東時間週一凌晨3:11於維吉尼亞北部的us-east-1區域被回報,連鎖影響多項雲端服務,致使多國網站與App一度離線或功能受限。AWS其後表示,與DynamoDB端點解析相關的DNS問題已獲緩解,但部分區域仍出現EC2新實例啟動錯誤與網路連線不穩,顯示修復進度呈現分區、分服務的長尾效應。官方並稱正處理任務積壓,逐步降低節流、恢復正常排程。此次事件波及範圍廣泛,除電商與智慧裝置生態受擾外,社群、金融、交通與公共服務平台也出現連線或登入問題。多地用戶在監測平台的回報於中午前後再度攀升,顯示恢復進度不一。技術層面看,DNS是負責將網域名稱轉為IP位址的「網路電話簿」,一旦解析異常,依賴該環節的資料庫與應用將無法互通,進而造成跨服務擴散效應。專家普遍認為,此案更像是雲區內部技術故障而非網攻。此次中斷再度凸顯雲端集中化風險:當單一超大雲區「打噴嚏」,依賴其的上千服務會同步「感冒」。業界建議企業強化多區域部署與多雲備援、減少單點依賴,並定期演練業務持續計畫。亞馬遜股價連續四天回吐7.0
財訊快報 ・ 1 天前

國泰世華銀加碼信用卡友福利 消費滿額抽SUPER SHOW 10演唱會門票!
距離《SUPER JUNIOR 20th Anniversary TOUR–SUPER SHOW 10》巡迴演唱會臺北場倒數不到一個月,喜愛SUPER JUNIOR的卡友福利再加一!國泰世華銀行繼8月宣布卡友搶先購票權後,再推出兩大專屬活動,包括與韓系電商合作,推出滿額購抽門票活動;並將於11月推出限時加碼回饋。
品觀點 ・ 21 小時前114年1期水稻收入保險理賠1.3億元 有效填補農民營農損失
農業部21日表示,114年1期作各鄉鎮市區水稻產量已完成調查統計,部分地區因低溫寒害影響,造成稻穀不稔實(空包彈)導致減產,經統計有18縣市、65個鄉鎮,共約1.1萬位農民獲得出險,理賠金額達1.3億元,其中,114年1期作「基本型」理賠約0.8億元、「加強型」理賠約0.5億元。
中時財經即時 ・ 21 小時前
維基百科受到 AI 搜尋摘要與短影音的衝擊,全球流量自 2025 年 4 月起下滑近一成
在生成式 AI 與短影音平台主導的網路時代,就連 Wikipedia 維基百科的瀏覽流量也撐不住了嗎?根據維基媒體基金會的文章指出,全球維基百科的人類實際瀏覽量
三嘻行動哇 ・ 1 天前
三星S26 Ultra傳仍有高通版本 但僅限部分市場專屬
MoneyDJ新聞 2025-10-21 08:16:30 李彥瑾 發佈三星電子(Samsung Electronics)新一代旗艦機Galaxy S26系列,預計將於明年1月上市,規格傳聞滿天飛。據外媒報導,Galaxy S26 Ultra可能採取「雙處理器」策略,依據不同市場銷售Exynos 2600或高通Snapdragon 8 Elite Gen 5兩種版本。 SamMobile報導,由於三星2奈米製程進度順利,Galaxy S26系列將打破上一代「全線採用」高通Snapdragon處理器的作法。其中,S26和S26 Plus兩款機型全數採用三星最新、最強的旗艦處理器Exynos 2600,不會推出高通Snapdragon 8 Elite Gen 5版本。 最高階的S26 Ultra則依不同市場搭載不同版本處理器,美國、日本及大中華市場採用高通Snapdragon 8 Elite Gen 5,而韓國、歐洲和全球其他市場換上三星自家Exynos 2600處理器,為四年來Exynos晶片首次現身於Ultra型號。 韓媒《The Elec》先前爆料,據知情人士透露,三星Galaxy
Moneydj理財網 ・ 1 天前