olmocr
olmocr
GitHub: https://github.com/allenai/olmocr
⭐ 星星數: 16763
摘要: 這是一個基於開放視覺語言模型的高品質OCR工具包,專門用於將PDF文件線性化以建立LLM訓練資料集
技術堆疊: Python, pypdf, pypdfium2, Pillow, lingua-language-detector, cached-path, smart_open
架構: 專案採用模組化設計,包含核心OCR處理、基準測試和資料採集模組。從檔案結構可見分為主要處理邏輯、效能評估工具和樣本資料集,顯示其專注於PDF文件處理與OCR品質驗證的完整工作流程