olmocr

Jan 19 2026

GitHub: https://github.com/allenai/olmocr

⭐ 星星數： 16763

摘要： 這是一個基於開放視覺語言模型的高品質OCR工具包，專門用於將PDF文件線性化以建立LLM訓練資料集

技術堆疊： Python, pypdf, pypdfium2, Pillow, lingua-language-detector, cached-path, smart_open

架構： 專案採用模組化設計，包含核心OCR處理、基準測試和資料採集模組。從檔案結構可見分為主要處理邏輯、效能評估工具和樣本資料集，顯示其專注於PDF文件處理與OCR品質驗證的完整工作流程