文档解析-pdf文档解析

PP-DocLayout

PP-DocLayout 系列提供了三个不同尺度的模型

  • 高精度模型:PP-DocLayout-L,GPU 上每个页面端到端推理耗时 13.4 ms
  • 精度和效率均衡模型:PP-DocLayout-M,GPU 上每个页面端到端推理耗时 12.7ms
  • 高效率模型:PP-DocLayout-S,GPU上每个页面处理耗时约 8.1ms

Marker

Marker 是一款基于先进 OCR(光学字符识别)技术的文件转换工具。它不仅可以处理 PDF 文件,还能处理各种图像格式(如 PNG、JPEG 等),并将其内容转换为结构化的 Markdown、JSON 或 HTML 格式。无论是文字、表格还是图像,Marker 都能精准识别并转换,确保输出内容的完整性和准确性。

特点

  1. 高精度 OCR 识别
    Marker 采用了最新的 OCR 技术,能够准确识别 PDF 和图像中的文字内容。即使是复杂的排版、多列文本或手写字体,Marker 也能轻松应对,确保转换后的内容与原文件高度一致。

  2. 多格式输出
    Marker 支持将文件转换为多种格式,满足不同场景的需求:
    • Markdown:适合需要进一步编辑或发布到博客、文档平台的用户。
    • JSON:适合开发者和数据分析师,方便进行结构化数据处理。
    • HTML:适合需要网页展示或嵌入到网站中的用户。

  3. 批量处理
    Marker 支持批量处理文件,用户可以一次性上传多个 PDF 或图像文件,Marker 会自动将其转换为指定的格式,大大节省了时间和精力。

  4. 保持原始格式
    Marker 不仅能够识别文字内容,还能保留原始文件的格式,如标题、段落、列表、表格等。转换后的 Markdown、JSON 或 HTML 文件能够清晰地反映原文件的结构,方便后续编辑和使用。

  5. 跨平台支持
    Marker 支持多种操作系统,包括 Windows、macOS 和 Linux,用户可以在不同的设备上使用 Marker 进行文件转换。

安装

1
pip install marker-pdf

使用

  • 命令行使用

    1
    2
    3
    4
    5
    6
    7
    8
    # 转换一个文件
    marker_single /path/to/file.pdf

    # 转换一个目录下的所有文件
    marker /path/to/input/folder --workers 4

    # 使用多个gpu进行转换
    NUM_DEVICES=4 NUM_WORKERS=15 marker_chunk_convert ../pdf_in ../md_out
  • python调用

    1
    2
    3
    4
    5
    6
    7
    8
    9
    from marker.converters.pdf import PdfConverter
    from marker.models import create_model_dict
    from marker.output import text_from_rendered

    converter = PdfConverter(
    artifact_dict=create_model_dict(),
    )
    rendered = converter("FILEPATH")
    text, _, images = text_from_rendered(rendered)
-------------本文结束感谢您的阅读-------------