模型权重:https://hf-mirror.com/stepfun-ai/GOT-OCR2_0
原GitHub:https://github.com/Ucas-HaoranWei/GOT-OCR2.0/
感谢GLM4提供的一部分代码(技术太菜了,所以不得不用一下AI)
其实CLI的开发比GUI还要慢,不过我现在打算先把GUI的改动同步到CLI,然后先更新CLI,等CLI稳定后再更新GUI
点个star吧
- 初步实现功能
- 修复
LaTeX
的渲染问题(位于GUI-EN版本中) - 修复
LaTeX
的渲染问题(位于GUI-ZH_CN版本中) - 修复
LaTeX
的渲染问题(位于CLI-EN版本中) - 修复
LaTeX
的渲染问题(位于CLI-ZH_CN版本中)
如果这里面提到的文件夹你没有,那就新建一个
- 参考
requirements.txt
pip install -r requirements.txt
- wkhtmltopdf,下载压缩包,解压放进
wkhtmltopdf
文件夹中
这个是转pdf用的,不过在将来应该会弃用;
文件结构应该是:GOT-OCR-2-GUI ├─wkhtmltopdf │ ├─bin │ │ ├─wkhtmltopdf.exe │ │ ├─wkhtmltox.dll │ │ ├─libwkhtmltox.a │ │ └─wkhtmltoimage.exe │ └─include │ └─wkhtmltox │ └─...
- Edge WebDriver,下载压缩包,放进
edge_driver
文件夹中
这个是转pdf用的,但还在开发;
至于为什么要用这个玩意转pdf,大概就是因为这个模型出的HTML比较特别,一般的库它转不了,用LaTeX
又太大了。我就选了一个最笨但也最管用的方法,就是直接用浏览器打开这个HTML,再把标签页做成pdf
文件结构应该是:GOT-OCR-2-GUI └─edge_driver ├─msedgedriver.exe └─...
- 下载到
models
文件夹中 - 别少下载文件了
- 文件结构应该是:
GOT-OCR-2-GUI
├─models
│ ├─model.safetensors
│ ├─config.json
│ └─你在huggingface下载的其他文件
└─...
- 选一个你喜欢的脚本打开
- 用GUI的可以不管,不过用CLI的各位记得把要OCR的图放进
imgs
文件夹里(CLI目前只检测.jpg
和.png
图片)
- 脚本闪退的话可以试一下用
cmd
跑python +文件名
,我自己测试时会出现闪退的情况,我也不知道为什么 result
文件夹里的markdown-it.js
不要删除,否则pdf导出会出错!- 确保你安装的
torch
是gpu版本