GOT-OCR-2-GUI

See English version here

关于此项目

模型权重：https://hf-mirror.com/stepfun-ai/GOT-OCR2_0
原GitHub：https://github.com/Ucas-HaoranWei/GOT-OCR2.0/
感谢GLM4提供的一部分代码（技术太菜了，所以不得不用一下AI）
其实CLI的开发比GUI还要慢，不过我现在打算先把GUI的改动同步到CLI，然后先更新CLI，等CLI稳定后再更新GUI

点个star吧

转换为pdf的开发进度

初步实现功能
修复LaTeX的渲染问题（位于GUI-EN版本中）
修复LaTeX的渲染问题（位于GUI-ZH_CN版本中）
修复LaTeX的渲染问题（位于CLI-EN版本中）
修复LaTeX的渲染问题（位于CLI-ZH_CN版本中）

使用方法

如果这里面提到的文件夹你没有，那就新建一个

依赖

使用`pip`安装

参考requirements.txt

pip install -r requirements.txt

其他

wkhtmltopdf，下载压缩包，解压放进wkhtmltopdf文件夹中

这个是转pdf用的，不过在将来应该会弃用；
文件结构应该是：

GOT-OCR-2-GUI
├─wkhtmltopdf
│  ├─bin
│  │  ├─wkhtmltopdf.exe
│  │  ├─wkhtmltox.dll
│  │  ├─libwkhtmltox.a
│  │  └─wkhtmltoimage.exe
│  └─include
│     └─wkhtmltox
│        └─...

Edge WebDriver，下载压缩包，放进edge_driver文件夹中

这个是转pdf用的，但还在开发；
至于为什么要用这个玩意转pdf，大概就是因为这个模型出的HTML比较特别，一般的库它转不了，用LaTeX又太大了。我就选了一个最笨但也最管用的方法，就是直接用浏览器打开这个HTML，再把标签页做成pdf
文件结构应该是：
GOT-OCR-2-GUI
└─edge_driver
   ├─msedgedriver.exe
   └─...

下载模型文件

下载到models文件夹中
别少下载文件了

文件结构应该是：

GOT-OCR-2-GUI
├─models
│  ├─model.safetensors
│  ├─config.json
│  └─你在huggingface下载的其他文件
└─...

开始使用

选一个你喜欢的脚本打开
用GUI的可以不管，不过用CLI的各位记得把要OCR的图放进imgs文件夹里（CLI目前只检测.jpg和.png图片）

注意事项

脚本闪退的话可以试一下用cmd跑python +文件名，我自己测试时会出现闪退的情况，我也不知道为什么
result文件夹里的markdown-it.js不要删除，否则pdf导出会出错！
确保你安装的torch是gpu版本

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

GOT-OCR-2-GUI

See English version here

关于此项目

转换为pdf的开发进度

使用方法

依赖

使用`pip`安装

其他

下载模型文件

开始使用

注意事项

Files

README.md

Latest commit

History

README.md

File metadata and controls

GOT-OCR-2-GUI

See English version here

关于此项目

转换为pdf的开发进度

使用方法

依赖

使用pip安装

其他

下载模型文件

开始使用

注意事项

使用`pip`安装