每日一个开源AI工具之高质量的文档解析
高质量的文档解析工具(持续更新)
在 AI 时代,将各类文档(PDF、Word、PPT、图片等)转换为结构化数据是 RAG、知识库、智能问答的基础。本文介绍两个高质量的开源文档解析工具:Docling 和 MinerU。
一、Docling(IBM 开源)
Docling 由 IBM Research 苏黎世团队开发,支持多格式文档解析,输出统一的 Markdown/JSON/HTML,并与 LangChain、LlamaIndex、Crew AI 等 AI 框架无缝集成。
核心特性
- 多格式支持:PDF、DOCX、PPTX、XLSX、HTML、图片(PNG、TIFF、JPEG 等)、音视频(WAV、MP3、VTT)
- 深度 PDF 理解:版面结构、阅读顺序、表格、公式、代码块、图片分类
- OCR:扫描 PDF 和图片的 OCR
- 本地部署:支持内网、离线环境
- MCP Server:可与 Claude Desktop、Cursor 等通过 MCP 协议对接
安装
# Python 3.10+ required
pip install docling
基本用法
from docling.document_converter import DocumentConverter
# 支持本地路径或 URL
source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())
命令行
# 转换单个文档
docling https://arxiv.org/pdf/2206.01062
# 使用 GraniteDocling VLM 模型(Apple Silicon 上可 MLX 加速)
docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062
二、MinerU(OpenDataLab)
MinerU 由 OpenDataLab 开源,面向学术论文、技术文档的结构化解析,常用于知识库构建和 RAG。
核心特性
- 论文解析:识别标题、摘要、章节、公式、图表、参考文献
- 多格式:PDF、图片、Markdown 等
- 结构化输出:Markdown、JSON 等便于后续处理
- API 服务:提供在线 API,可按需接入
使用方式
- 本地部署:从 GitHub 克隆项目后按文档配置运行
- 在线 API:通过 mineru.net 申请 token 调用接口
三、使用建议
| 场景 | 推荐工具 |
|---|---|
| 通用文档解析、与 LangChain 等集成 | Docling |
| 学术论文、知识库构建 | MinerU |
| 需要 OCR 的扫描件 | Docling(OCR 能力强) |
| 内网/离线环境 | Docling(本地运行) |
官方资料
- Docling: https://github.com/docling-project/docling
- MinerU: https://github.com/opendatalab/mineru
- MinerU API: https://mineru.net/apiManage/token