告别手动录入发票！元器智能体+工作流实战：3秒提取发票信息，效率提升10倍

财务人员的日常被发票录入折磨得焦头烂额？腾讯元器智能体比赛诞生的'发票提取助手'彻底改变了这一困境。这款工具能在3秒内自动识别发票图片并提取关键信息，准确率高达95%以上。本文将完整拆解智能体+工作流的开发过程，揭秘如何利用OCR插件与大模型技术实现财税场景的效率革命。

财务人员每天最头疼的事是什么？不是算账，而是手动录入发票信息。一张发票十几个字段，一天几十张发票，光是敲键盘就能让人崩溃。

参加腾讯元器智能体比赛，我搭建了”发票提取助手“，只需上传发票图片，3秒内自动识别并提取所有关键信息，输出结构化数据。今天我将详细拆解搭建过程，分享实战心得，让你也能快速上手。

智能体体验链接：

https://yuanqi.tencent.com/agent/dAp1IpDQgKnk

一、背景与痛点：财务人员的真实困境

真实场景还原

作为财务人员，我每天都会遇到这样的场景：

上午9点：收到供应商发来的10张发票图片，需要录入到财务系统

上午10点：采购部门又发来5张手机拍照的发票，图片有些模糊

下午2点：老板发来一张发票，要求立即录入并核对金额

下午4点：发现上午录入的一张发票金额有误，需要重新核对…

这就是财务/采购部门的日常：

手动录入：发票代码、号码、开票日期、购销方信息、金额、税额等十几个字段

容易出错：数字录入错误、字段遗漏、格式不规范

效率低下：一张发票3-5分钟，一天几十张就是数小时

重复劳动：同样的操作重复千百遍

痛点数据对比

智能体方式：自动提取仅需3-5秒，准确率可达95%以上，支持移动办公，零学习成本。

解决方案：智能体+工作流双引擎

我采用了智能体+工作流的开发模式，充分发挥腾讯元器平台的优势：

核心架构

设计思路：

智能体层：负责用户交互，接收图片上传

OCR插件层：专业识别发票文字（这是关键优势）

工作流层：编排处理逻辑，调用大模型提取结构化信息

输出层：统一JSON格式和表格两种格式，便于后续入库或导出

平台优势：多渠道发布，微信生态无缝衔接

除了技术架构的优势，腾讯元器平台在发布渠道上也有独特优势，这是其他平台难以比拟的：

1.元宝小程序：微信生态原生支持

最大的亮点是元宝小程序，智能体可以直接发布到元宝小程序，与微信生态无缝衔接：

无需额外开发：一键发布，无需单独开发小程序

使用门槛低：财务人员无需安装新APP，在熟悉的微信环境中就能完成发票提取

分享便捷：支持微信分享，团队协作更方便

2.多渠道发布能力

腾讯元器支持多种发布渠道，满足不同使用场景：

3.实际应用价值

对于财务场景来说，元宝小程序+微信的组合特别实用：

移动办公：财务人员在外收到发票，直接用微信拍照上传，立即提取信息

团队协作：提取结果可直接分享到微信群，无需导出再发送

零学习成本：所有财务人员都会用微信，无需培训

二、拆解智能体搭建过程：从0到1的完整步骤

下面我将详细拆解整个搭建过程，手把手教你如何搭建这个发票提取助手。

步骤1：创建智能体

1.进入腾讯元器平台，点击”创建智能体”，创建”对话式智能体“

2.填写基本信息：

智能体名称：发票提取助手

描述：自动识别发票图片，提取结构化信息

头像：选择合适的图标

3.进入智能体人配置界面，”切换创建方式“是一个关键设置，如果智能体需要工作流配合工作，需要切换到”用工作流创建”

步骤2：创建工作流

这是核心步骤，我们采用智能体+工作流的双引擎架构：

2.1工作流整体设计

工作流包含3个核心节点：

OCR识别节点：识别发票图片中的文字

信息提取节点：使用大模型提取结构化字段

格式化输出节点：整理并输出最终结果

2.2节点3：OCR识别配置

节点类型：选择”OCR插件”节点

输入配置：接收智能体传递的图片文件

插件选择：选择商用OCR插件（这里可以突出插件优势）

输出配置：输出识别后的文本内容

关键配置点：

上传文件的URL获取，需要通过参数提取节点先做处理（如上图中的节点2）

将提取到的URL作为OCR节点的输入

2.3节点4：OCR识别结果提取配置

节点类型：选择“参数提取”节点

输入配置：接收OCR节点输出的文本

提取关键信息：提取OCR识别结果的“TextDetections”

2.4节点5：信息格式化

节点类型：选择”LLM”节点（大模型节点）

输入配置：接收OCR节点输出的文本

模型选择：选择合适的大模型（如元宝大模型等）

提示词设计：这是关键！

提示词设计要点：

你是一个专业的发票信息提取助手。请从以下发票文本中提取结构化信息，严格按照JSON格式输出：

{

“invoice_code”:”发票代码”,

“invoice_number”:”发票号码”,

“issue_date”:”发票开票日期，YYYY-MM-DD格式”,

“buyer_namc”:”购买方公司名称”,

“buyer_tax_id”:”购买方公司纳税人识别号”,

“buyer_address”:购方地址”seller_name”:

“销售方公司名称”,”seller_tax_id”:

“销售方公司纳税人识别号”,

“invoice_project”:”发票的项目名称”,

“amounts_without_tax”:

“不含税金额”,

“amounts_tax”:”税额””amounts_with_tax”:”价税合计”

}

–输出要求：需要两种格式输出

–表格的形式输出（表格的字段名为中文）

-Json格式输出

–要求：

1、请严格按发票提取结果信息输出

2.如果字段不存在，使用null

3.金额字段保留4位小数

4.日期格式统一为YYYY-MM-DD

–发票文本：{content}

步骤4：连接节点并测试

节点连接：按照流程连接各个节点

智能体→提取上传链接→OCR节点→提取OCR结构参数→LLM格式化节点→输出

测试流程：上传测试发票图片，检查每个节点的输出

调试优化：根据测试结果调整提示词和参数

步骤5：发布智能体

1.测试通过后，点击”发布”，填写发布版本记录

2.选择发布渠道：

元宝小程序（推荐，微信生态）

API接口

三、完整工作流设计详解

流程图

四、应用效果展示：真实场景验证

4.1实际使用效果

让我们看看智能体在实际场景中的表现：

场景1：手机拍照发票

输入：手机拍摄的发票照片

处理时间：3.2秒

提取准确率：96%

输出：完整的结构化JSON数据

4.2效果对比数据

五、深度洞察：从发票提取看智能体的业务应用

5.1为什么要选择发票提取场景？

原因有三：

1.高频刚需场景

财务部门每天都要处理大量发票

痛点明确，需求强烈

一旦解决，立即产生价值

2.标准化程度高

发票格式相对统一

字段定义清晰

适合用AI自动化处理

3.效果可量化

处理时间：从分钟级降到秒级

准确率：可测量、可优化

ROI：立竿见影

5.2可迁移的通用模式

这个方案的核心模式可以迁移到多个场景：

通用公式：文档/图片→OCR/文本提取→大模型结构化提取→数据校验→结构化输出

六、结语

腾讯元器平台的智能体+工作流模式，配合元宝小程序的微信生态优势，让复杂业务逻辑变得简单可控，真正实现”开箱即用”。

本文为腾讯元器智能体比赛参赛作品，欢迎交流讨论。

云霞资讯网

告别手动录入发票！元器智能体+工作流实战：3秒提取发票信息，效率提升10倍

热门分类