业务描述

通过借助 AI 大模型的视觉能力,实现非标图片中的文本的识别,输出结构化(JSON)数据。

相较于调用 OCR 接口,使用 AI 模型识别的文本识别服务具灵活不受制于图片类型的约束,可以自己实现某类图片的定向结构化识别。

如何使用

前置条件:已经在模型管理维护 视觉类模、聊天模型

新增图片 OCR

示例:以营业执照识别为例子

字段内容
标题营业执照识别
描述从给定的图片中获取企业名称,成立时间信息

维护底图

  • 维护图片底图(定义识别细节和返回字段信息)
  • 上传类似的底图(这里上传营业执照)
  • 定义字段信息
  • 测试解析