PP-DocLayout
PP-DocLayout 系列提供了三个不同尺度的模型
- 高精度模型:PP-DocLayout-L,GPU 上每个页面端到端推理耗时 13.4 ms
- 精度和效率均衡模型:PP-DocLayout-M,GPU 上每个页面端到端推理耗时 12.7ms
- 高效率模型:PP-DocLayout-S,GPU上每个页面处理耗时约 8.1ms
Marker
Marker 是一款基于先进 OCR(光学字符识别)技术的文件转换工具。它不仅可以处理 PDF 文件,还能处理各种图像格式(如 PNG、JPEG 等),并将其内容转换为结构化的 Markdown、JSON 或 HTML 格式。无论是文字、表格还是图像,Marker 都能精准识别并转换,确保输出内容的完整性和准确性。
特点
高精度 OCR 识别
Marker 采用了最新的 OCR 技术,能够准确识别 PDF 和图像中的文字内容。即使是复杂的排版、多列文本或手写字体,Marker 也能轻松应对,确保转换后的内容与原文件高度一致。多格式输出
Marker 支持将文件转换为多种格式,满足不同场景的需求:
• Markdown:适合需要进一步编辑或发布到博客、文档平台的用户。
• JSON:适合开发者和数据分析师,方便进行结构化数据处理。
• HTML:适合需要网页展示或嵌入到网站中的用户。批量处理
Marker 支持批量处理文件,用户可以一次性上传多个 PDF 或图像文件,Marker 会自动将其转换为指定的格式,大大节省了时间和精力。保持原始格式
Marker 不仅能够识别文字内容,还能保留原始文件的格式,如标题、段落、列表、表格等。转换后的 Markdown、JSON 或 HTML 文件能够清晰地反映原文件的结构,方便后续编辑和使用。跨平台支持
Marker 支持多种操作系统,包括 Windows、macOS 和 Linux,用户可以在不同的设备上使用 Marker 进行文件转换。
安装
1 | pip install marker-pdf |
使用
命令行使用
1
2
3
4
5
6
7
8转换一个文件
marker_single /path/to/file.pdf
转换一个目录下的所有文件
marker /path/to/input/folder --workers 4
使用多个gpu进行转换
NUM_DEVICES=4 NUM_WORKERS=15 marker_chunk_convert ../pdf_in ../md_outpython调用
1
2
3
4
5
6
7
8
9from marker.converters.pdf import PdfConverter
from marker.models import create_model_dict
from marker.output import text_from_rendered
converter = PdfConverter(
artifact_dict=create_model_dict(),
)
rendered = converter("FILEPATH")
text, _, images = text_from_rendered(rendered)