这个项目是一个简单但强大的工具,用于使用 Mistral AI 的 OCR (光学字符识别) 功能处理 PDF 文件。该工具能够从 PDF 文档中提取文本内容和图像,并将结果保存为 Markdown 格式。
- 使用 Mistral AI 的 OCR 能力处理 PDF 文件
- 自动提取文本内容并保留原始布局
- 提取并保存 PDF 中的图像
- 生成包含完整内容的 Markdown 文件
- 支持中文等多种语言
运行此工具需要以下依赖项:
pip install mistralai flask-
设置环境变量:
- 获取您的 Mistral AI API 密钥。
- 设置
MISTRAL_API_KEY环境变量。例如,在 Linux 或 macOS 上:在 Windows 上,您可以在 PowerShell 中使用:export MISTRAL_API_KEY="your_actual_api_key"
或者通过系统属性设置。$Env:MISTRAL_API_KEY="your_actual_api_key"
-
运行脚本:
- 使用以下命令运行脚本,将
your_document.pdf替换为您的 PDF 文件的实际路径:python pdf_ocr.py your_document.pdf
- 您可以选择使用
-o或--output_dir参数指定自定义输出目录:如果未提供输出目录,结果将保存在名为python pdf_ocr.py your_document.pdf -o custom_output_folder
ocr_results_[PDF文件名]的文件夹中,该文件夹将在脚本运行的目录中创建。
- 使用以下命令运行脚本,将
-
启动 Web UI:
- 通过以下命令启动简易 Web 界面,可一次上传并处理多个 PDF 文件:
python webui.py
- 浏览器访问
http://localhost:8080即可使用。上传的文件必须是 PDF,处理完成后会提供打包好的 ZIP 下载。 - 新版界面使用 Bootstrap 样式,美观且易用。
- 通过以下命令启动简易 Web 界面,可一次上传并处理多个 PDF 文件:
脚本将根据指定的输出目录(或默认目录 ocr_results_[PDF文件名])创建一个文件夹,其中包含:
complete.md: 包含所有页面内容的 Markdown 文件images/: 保存 PDF 中提取出的所有图像的文件夹
- 请确保提供的 PDF 文件路径正确且文件可访问。
- API 密钥需要具有 OCR 功能的访问权限。
- 如果指定的输出目录已存在,脚本仍会尝试在其中创建
images子目录和complete.md文件。现有同名文件可能会被覆盖。