使用OCR识别手写文本
本文实现了基于微调TrOCR模型进行手写文本识别。
GNHK手写笔记数据集
GNHK(GoodNotes Handwriting Kollection)手写笔记数据集由GoodNotes提供,包含来自世界各地学生的数百份英文手写笔记。
下载数据集
访问GNHK数据集官方网站(https://www.goodnotes.com/gnhk),滚动到底部,同意使用条款和条件;点击第二个链接下载数据集。
下载后会得到两个文件:train_data.zip 和 test_data.zip。解压这两个文件后,数据集的目录结构如下:
├── test_data
│ └── test
│ ├── eng_AF_00