OmniParser

OmniParser

GitHub: https://github.com/microsoft/OmniParser

⭐ 星星數: 24223

摘要: 這是一個基於純視覺的GUI代理屏幕解析工具,能夠自動識別和解析圖形用戶界面元素。

技術堆疊: PyTorch, EasyOCR, Ultralytics YOLO, OpenAI API, Transformers, Gradio, Streamlit, OpenCV, PaddleOCR

架構: 專案採用模組化設計,包含解析器核心(omnitool)、Web界面(gradio)、虛擬機管理(omnibox)和伺服器端(omniparserserver),支援多種OCR引擎和AI模型整合。