unstructured
unstructured
GitHub: https://github.com/Unstructured-IO/unstructured
⭐ 星星數: 13665
摘要: 這是一個開源ETL工具,專門將複雜的非結構化文件(如PDF、電子郵件、圖片等)轉換為適合語言模型使用的結構化數據格式。
技術堆疊: Python, Docker, GitHub Actions
架構: 專案採用模組化設計,包含豐富的範例文件目錄(PDF、EML、圖片等),並使用Docker容器化部署和GitHub Actions進行CI/CD工作流程,支援多種文件格式的處理管道。