Skip to content

针对文档类图像,整合版面分析、文字识别、表格识别和公式识别结果,还原版面布局信息。

License

Notifications You must be signed in to change notification settings

RapidAI/RapidLayoutRecover

Repository files navigation

🚀 Work In Progress

整体功能还没开发完哈!欢迎加入一起搞

🔍 Rapid Layout Recover

该项目主要针对文档类图像做版面还原,将文档类图像一比一输出到Word或者Txt中,便于进一步使用或处理。

🛠️ 整体框架

以下为整体框架依赖包,均为RapidAI出品。

flowchart TD
    A[/文档图像/] --> B([文档方向分类 rapid_orientation]) --> C([版面分析 rapid_layout])
    C --> D([表格识别 rapid_table]) & E([公式识别 rapid_latex_ocr]) & F([文字识别 rapidocr_onnxruntime]) --> G([版面还原 rapid_layout_recover])
    G --> H[/结构化输出/]
Loading

📑 输入和输出

  • 输入:文档类图像
  • 输出:TXT或Word

💻 安装运行环境

pip install -r requirements.txt

🚀 运行Demo

git clone https://github.com/RapidAI/RapidLayoutRecover.git
cd RapidLayoutRecover
python demo.py

📈 结果示例

⚠️注意:之所以提取结果没有分段,是因为版面分析模型没有段落检测功能。现有开源的所有版面分析模型都没有段落检测功能,这个后续会考虑自己训练一个版面分析模型来优化这里。

⭐ Star History

Star History Chart

About

针对文档类图像,整合版面分析、文字识别、表格识别和公式识别结果,还原版面布局信息。

Topics

Resources

License

Stars

Watchers

Forks

Languages