Skip to content

Latest commit

 

History

History
75 lines (68 loc) · 2.72 KB

README.md

File metadata and controls

75 lines (68 loc) · 2.72 KB

GOT-OCR-2-GUI

img.png

关于此项目

模型权重:https://hf-mirror.com/stepfun-ai/GOT-OCR2_0
原GitHub:https://github.com/Ucas-HaoranWei/GOT-OCR2.0/
感谢GLM4提供的一部分代码(技术太菜了,所以不得不用一下AI)
其实CLI的开发比GUI还要慢,不过我现在打算先把GUI的改动同步到CLI,然后先更新CLI,等CLI稳定后再更新GUI

点个star吧

转换为pdf的开发进度

  • 初步实现功能
  • 修复LaTeX的渲染问题(位于GUI-EN版本中)
  • 修复LaTeX的渲染问题(位于GUI-ZH_CN版本中)
  • 修复LaTeX的渲染问题(位于CLI-EN版本中)
  • 修复LaTeX的渲染问题(位于CLI-ZH_CN版本中)

使用方法

如果这里面提到的文件夹你没有,那就新建一个

依赖

使用pip安装

  • 参考requirements.txt
pip install -r requirements.txt

其他

  • wkhtmltopdf,下载压缩包,解压放进wkhtmltopdf文件夹中

这个是转pdf用的,不过在将来应该会弃用;
文件结构应该是:

GOT-OCR-2-GUI
├─wkhtmltopdf
│  ├─bin
│  │  ├─wkhtmltopdf.exe
│  │  ├─wkhtmltox.dll
│  │  ├─libwkhtmltox.a
│  │  └─wkhtmltoimage.exe
│  └─include
│     └─wkhtmltox
│        └─...

这个是转pdf用的,但还在开发;
至于为什么要用这个玩意转pdf,大概就是因为这个模型出的HTML比较特别,一般的库它转不了,用LaTeX又太大了。我就选了一个最笨但也最管用的方法,就是直接用浏览器打开这个HTML,再把标签页做成pdf
文件结构应该是:

GOT-OCR-2-GUI
└─edge_driver
   ├─msedgedriver.exe
   └─...

下载模型文件

  1. 下载到models文件夹中
  2. 别少下载文件了
  • 文件结构应该是:
GOT-OCR-2-GUI
├─models
│  ├─model.safetensors
│  ├─config.json
│  └─你在huggingface下载的其他文件
└─...

开始使用

  1. 选一个你喜欢的脚本打开
  2. 用GUI的可以不管,不过用CLI的各位记得把要OCR的图放进imgs文件夹里(CLI目前只检测.jpg.png图片)

注意事项

  • 脚本闪退的话可以试一下用cmdpython +文件名,我自己测试时会出现闪退的情况,我也不知道为什么
  • result文件夹里的markdown-it.js不要删除,否则pdf导出会出错!
  • 确保你安装的torch是gpu版本