Skip to main content Link Menu Expand (external link) Copy Copied

OCR 手动标注

有关数据集导入导出训练/验证/测试集划分步骤请参快速开始文档

PaddleLabel 目前支持 PaddleOCR txt 格式的数据集导入导出。

数据集格式

PaddleOCR txt

v1.0.0+

PaddleOCR txt 格式中,所有标注数据存储在 Label.txt 文件中。

样例格式如下:

数据集路径
├── image
│   ├── 1.jpg
│   ├── 2.png
│   ├── 3.webp
│   └── ...
└── Label.txt # 可选

# Label.txt
05.jpg	[{"points": [[x1, y1], [x2, y2], [x3, y3], [x4, y4]], "transcription": "文字内容", "illegibility": true, "language": "ch"}, ...]

数据标注

PaddleLabel 目前支持两顶点矩形和多边形两种文字位置标画工具。完成文字位置标画后,右侧“识别结果”列表中会添加一条记录,文字内容为“待识别”。单击一条识别结果中的文字可以对其进行编辑。

两点矩形

两点矩形的四条边为水平或竖直方向,仅支持对矩形四个顶点中两个的位置进行修改。如果需要四点的自由四边形,请使用多边形工具。创建两点矩形识别记录的过程如下

  1. 在左侧工具栏中点击激活“矩形”工具
  2. 在画布中按住鼠标左键进行拖拽创建一个矩形。松开左键后标注记录会自动保存
  3. 在右侧识别结果列表中修改识别记录文字内容

多边形

多边形识别记录的所有顶点位置都可以修改,使用过程如下

  1. 在左侧工具栏中点击激活“多边形”工具
  2. 围绕文字区域,点击鼠标左键添加多边形顶点标画文字位置。完成标画后点击鼠标右键。多边形记录会自动保存
  3. 在右侧识别结果列表中修改识别记录文字内容

下一步

您可以继续浏览自动预标注使用方法了解如何使用 PaddleLabel-ML 提高 OCR 项目标注效率。