提案编号:______(本人不用填写,提交后由研究院统一编号)
集团公司 2026 年度技术创新
研发项目提案书
项目名称:面向 WCS/WMS 协同的多Agent AI智能体与Prompt自学习关键技术研发
提案完成人:
提案参与人:
一、立项背景与意义
集团公司 2026 年度技术创新研发项目征集明确鼓励围绕人工智能、机器人调度与算法、安全监控、绿色智能仓储物流等方向开展研发,重点支持能够解决现有产品与系统共性问题、支撑业务发展痛点、并具备前瞻性的技术创新项目。本提案与该方向高度一致,聚焦仓储物流场景中 WCS 与 WMS 协同效率、异常处置能力、控制安全性和产品智能化水平提升。
当前公司在 WCS/WMS 项目交付和运维过程中,已积累了大量业务规则、接口经验、异常处理经验和现场调试知识,但这些能力仍主要依赖人工经验、固定规则和分散文档,存在查询分析效率不高、跨系统协同不足、经验难沉淀、AI 控制边界不清晰等共性问题。
本项目拟在现有系统基础上构建可控、可审计、可复用的智能体平台:在业务层实现多智能体协同分析、建议和辅助决策,在执行层以 MCP 为标准化接入协议实现资源读取、工具调用与 Prompt 编排,在治理层引入 PromptOps、数字孪生仿真和全链路审计机制,逐步打通从“只读辅助”到“受控写入”再到“局部自动化”的能力演进路径。
项目的立项意义主要体现在四个方面:一是沉淀形成可复用的 AI 能力底座,提升公司产品竞争力和项目交付能力;二是把专家经验、SOP 和历史日志转化为系统化知识资产,降低人员依赖;三是在安全可控前提下提升计划生成、异常处置、报表生成和运维辅助效率;四是为后续机器人调度、安全监控、绿色智能仓储等场景提供可复制的共性技术资产。
二、项目目标与拟解决的关键问题
本项目拟在 12 个月内完成多Agent AI 智能体平台核心能力研发,并在 WCS/WMS 典型场景完成试点验证,形成“平台底座 + 安全治理 + 场景应用 + 评测体系”的完整能力闭环。
2.1 项目目标
|
序号 |
目标项 |
预期指标 |
|
1 |
建立多Agent协同底座 |
覆盖查询解释、计划建议、异常诊断、受控操作 4 类核心场景 |
|
2 |
建立 Prompt 自学习与治理机制 |
建立 Prompt 模板,支持版本管理、离线评测、灰度发布和回滚 |
|
3 |
建立 MCP 可控集成能力 |
完成 WMS/WCS/SOP/日志等资源与工具的标准化接入,形成统一调用入口 |
|
4 |
建立安全控制闭环 |
高风险操作全部经过权限校验、仿真验证、双重确认和审计留痕 |
|
5 |
完成试点与评测验证 |
形成本地模型与云端模型对比结论,并在典型场景完成试点落地 |
2.2 拟解决的关键问题
|
关键问题 |
现状表现 |
拟解决思路 |
|
场景理解与路由不统一 |
查询、分析、控制类请求混杂,依赖人工判断 |
通过场景路由 Agent 分类分流,统一识别风险等级与工具边界 |
|
业务知识分散、更新困难 |
SOP、接口说明、异常经验分散在文档和个人经验中 |
建设知识检索 Agent 与知识库,对文档、日志、工单进行结构化沉淀 |
|
工具调用不稳定、不可控 |
自然语言直接下沉到系统调用存在风险 |
通过结构化 Prompt、Schema 校验与 MCP Tools 实现标准化调用 |
|
AI 进入控制环节的安全风险高 |
误操作、越权、提示注入、缺少回滚机制 |
引入权限分级、ABAC 策略、数字孪生仿真、审批和命令账本审计 |
|
Prompt 使用经验难沉淀 |
Prompt 静态维护,缺少效果数据闭环 |
建立 PromptOps 流程,以日志、反馈与评测驱动持续优化 |
|
模型选型缺少统一依据 |
本地模型与云端模型在效果、成本、时延上差异大 |
建立统一评测矩阵,形成模型选型和混合部署策略 |
三、初步技术思路或实施方案
3.1 总体技术路线
项目总体采用“多Agent协同 + PromptOps 持续优化 + MCP 可控集成 + 仿真审计安全闭环”的技术路线。系统分为交互与编排层、能力与知识层、集成与执行层、安全治理层四个层次。
(1)交互与编排层:由编排器协调场景路由 Agent、知识检索 Agent、计划分解 Agent、执行 Agent、安全审查 Agent 和 PromptOps Agent,统一接收业务请求并输出可解释结果。
(2)能力与知识层:建设 Prompt 模板库、知识库、评测集、日志反馈库和版本库,实现 Prompt 初始化、复盘、优化和灰度发布。
(3)集成与执行层:通过 MCP Server 对 WMS、WCS、日志系统、工单系统、仿真系统等进行标准化接入,统一封装 Resources、Tools 和 Prompts 能力。
(4)安全治理层:建立 OAuth Scope + ABAC 策略控制、数字孪生仿真、人工审批、操作审计、补偿回滚和异常熔断机制,保证 AI 应用范围可控、风险可追溯。
3.2 核心实施内容
(1)多Agent 协同能力研发:围绕 WCS/WMS 典型业务,研发场景路由、知识检索、计划分解、工具执行、安全审查和复盘优化等核心 Agent,使复杂任务从“单次问答”升级为“分工协作、逐步验证、结果可解释”的工作流。
(2)Prompt 模板体系与 PromptOps 建设:建设场景识别、业务策略、设备控制、异常诊断、报表复盘、安全合规等六类 Prompt 模板族;建立日志采集、样本沉淀、离线评测、候选 Prompt 生成、灰度发布和版本回滚机制,实现 Prompt 的持续优化。
(3)MCP 可控集成研发:对公司现有 WCS/WMS 的关键资源和工具进行封装,优先接入只读类数据,再逐步扩展到 dry-run 写入、工单生成、波次建议、异常处置建议等工具,最终形成统一的 AI 调用接口层。
(4)安全控制机制研发:对于涉及系统写入和控制的场景,强制引入最小权限、审批流、仿真先行、结果审计和补偿机制,避免 AI 直接对生产系统进行无约束操作。
(5)模型评测与部署策略研发:选取本地可部署模型与云端模型进行统一测试,形成适配 WCS/WMS 场景的模型选型策略,并根据时延、成本、风险等级实现混合路由。
3.3 阶段实施计划
|
阶段 |
时间 |
重点任务 |
阶段交付 |
|
第一阶段 |
T0-T3 月 |
需求梳理、知识资产盘点、只读资源接入、多Agent原型搭建 |
原型系统、首批 Prompt 模板、知识库与只读 MCP 接口 |
|
第二阶段 |
T4-T8 月 |
PromptOps 建设、评测体系建设、dry-run 写入能力、安全审批与审计机制研发 |
Prompt 版本治理平台、评测报告、中风险场景试点 |
|
第三阶段 |
T9-T12 月 |
局部受控闭环试点、仿真验证、业务指标验证、成果固化与推广准备 |
试点应用、项目总结报告、推广方案、知识产权材料 |
3.4 首批落地场景
1. 波次/任务生成与下发建议:提升计划效率,先以 dry-run 方式验证。
2. 异常自诊断与应急处置建议:围绕告警、卡箱、停机、拥堵等问题输出处置建议和确认项。
3. 安全联锁与危险操作拦截:对高风险操作增加 AI 二次校验与拦截能力。
4. 工单、日报和复盘报告自动生成:降低人工文书成本,形成经验沉淀。
5. 培训与 SOP 智能问答:服务一线人员和实施人员的快速查询与学习。
3.5 可行性分析
公司现有 WCS/WMS 产品、接口体系和项目经验为本项目提供了良好的落地基础。项目初期以“只读辅助”和“dry-run 建议”为主,不改变现有核心控制逻辑,可在较低风险下快速验证价值;中后期再在审批、仿真和审计机制成熟的前提下推进受控写入和局部自动化。
四、预期成果与价值
4.1 预期成果形式
|
成果类别 |
预期成果 |
|
平台成果 |
形成 1 套面向 WCS/WMS 的多Agent AI 智能体平台原型 |
|
集成成果 |
形成 WMS/WCS等标准化 MCP 资源或工具接入能力 |
|
算法与治理成果 |
形成 Prompt 模板、PromptOps 流程和模型评测体系 |
|
场景成果 |
完成典型业务场景试点验证,形成可复用实施模板 |
|
知识产权成果 |
计划申请软件著作权 |
|
管理成果 |
形成安全策略、审批机制、审计机制和项目推广规范文档 |
4.2 技术与业务价值
1. 提升产品智能化水平,通过把多Agent、PromptOps 和 MCP 集成到底层产品能力中,形成公司面向智能仓储项目的差异化竞争力。
2. 降低经验依赖与培训成本,把专家经验、SOP 和历史处置案例沉淀为可复用知识资产,降低新人培养成本和跨项目复制成本。
3. 强化安全可控能力,通过审批、仿真、审计和补偿机制,将 AI 从“不可控黑箱”转变为“边界清晰、过程可追溯”的工程能力。
4. 形成集团共性技术资产,项目成果可向机器人调度、安全监控、园区智能运维和绿色仓储等方向复制推广。
4.3 风险评估与应对
|
风险项 |
风险说明 |
应对措施 |
|
技术集成风险 |
WCS/WMS 接口差异大、历史系统标准不统一 |
采用分层适配和标准化封装,先接入共性能力再逐步扩展 |
|
数据质量风险 |
SOP、日志、工单数据存在缺失、过期或噪声 |
建立数据清洗、版本控制和人工抽检机制 |
|
安全风险 |
高风险操作存在越权、误调用、提示注入等问题 |
强制审批、仿真、ABAC 策略、审计留痕和回滚补偿 |
|
模型效果波动风险 |
模型在不同场景下稳定性和成本差异较大 |
建立统一评测集,采用本地模型与云模型混合路由 |
|
推广应用风险 |
一线人员使用习惯和信任度需要培养 |
通过只读辅助先落地,逐步扩大应用边界,配套培训与复盘 |
五、资源需求初步估算
5.1 所需工时天数估算
按项目建议周期 12 个月、月均 22 个工作日测算,1.0 FTE 约折算为 264 人天,以下为项目核心角色所需工时估算。
|
角色 |
所需工时(人天) |
主要职责 |
|
项目负责人/架构师 |
264 |
总体方案设计、关键路径推进、跨团队协调 |
|
AI算法与智能体研发 |
396 |
多Agent、PromptOps、评测体系与模型路由研发 |
|
WCS后端研发 |
264 |
WCS 侧接口封装、控制工具、审计和仿真联动 |
|
WMS后端研发 |
264 |
WMS 侧资源与工具接入、业务策略联动 |
|
前端与交互研发 |
132 |
智能体控制台、结果展示与审批交互 |
|
测试与运维 |
132 |
测试用例、环境部署、监控告警、回归验证 |
|
业务专家/现场顾问 |
132 |
场景定义、效果评审、试点推进 |
|
合计 |
1584 |
按 12 个月、22 个工作日/月估算,核心团队协同投入 |
5.2 方案一:本地部署硬件成本明细
方案一仅统计本地模型部署所需的核心硬件成本,不含网络配套、供电保障、备份存储、基础部署、安全加固及预备费等扩展项,便于在提案中单独说明试点环境的最小投入规模。
|
类别 |
配置建议 |
单价(元) |
数量 |
小计(元) |
备注 |
|
GPU |
NVIDIA RTX 6000 Ada 48GB |
53000 |
2 |
106000 |
主推理节点 |
|
服务器底座 |
4U GPU服务器机箱 + 主板 + 冗余电源 |
28000 |
1 |
28000 |
双 GPU 服务器 |
|
CPU |
Intel Xeon 中端双路 |
9000 |
2 |
18000 |
编排、检索、调度 |
|
内存 |
ECC DDR5 RECC 64GB x 4 = 256GB |
15599 |
4 |
62396 |
按单条 64GB 价格测算 |
|
系统盘/数据盘 |
企业级 NVMe 3.84TB |
2800 |
2 |
5600 |
模型与向量库 |
|
Mac Studio |
Apple Mac Studio M3 Ultra 96GB/1TB |
32999 |
1 |
32999 |
高配本地模型开发与演示机 |
|
本地客户端试验机 |
AMD Ryzen 9 9950X3D + RTX 5090 + 256GB DDR5 + 2TB SSD |
50200 |
1 |
52400 |
按 CPU 5300 + GPU 20600 + 内存 19000 + 主板 3000 + 电源 1500 + 2TB SSD 3000估算 |
|
合计 |
|
|
|
305395 |
约 30.5万元 |
5.3 方案二:主流云端 API 使用成本测算
方案二为兼顾复杂推理、低时延问答与外部模型能力补充,项目试点期建议预留主流云端大模型 API 预算。以下测算按 1 USD 约合 7.00 CNY 估算,且仅统计标准文本 Token 费用,不含联网搜索、代码执行、向量存储、工具调用等附加费用。
测算口径如下:
- 月请求量:20000 次
- 平均单次输入:8000 Tokens
- 平均单次输出:2000 Tokens
- 月输入总量:160000000 Tokens
- 月输出总量:40000000 Tokens
|
厂商 |
模型 |
输入单价(USD/百万Tokens) |
输出单价(USD/百万Tokens) |
月费用(USD) |
月费用(CNY) |
适用建议 |
|
OpenAI |
GPT-5 mini |
0.25 |
2.00 |
120 |
840 |
常规问答、轻量 Agent 编排、文本生成 |
|
OpenAI |
GPT-5.4 |
2.50 |
15.00 |
1000 |
7000 |
复杂推理、方案生成、关键任务复核 |
|
|
Gemini 2.5 Flash |
0.30 |
2.50 |
148 |
1036 |
高频低时延场景、实时问答、批量处理 |
|
|
Gemini 2.5 Pro |
1.25 |
10.00 |
600 |
4200 |
多步骤分析、长上下文理解、复杂研发辅助 |
5.4 方案一与方案二优劣势分析
|
对比维度 |
方案一:本地部署 |
方案二:云端 API |
|
主要优势 |
数据留存在内网,安全边界更清晰;内网调用稳定,适合高敏感或强合规场景;可按业务需要定制部署与推理链路。 |
无需一次性采购硬件,按量付费,初期投入低;可快速接入高性能模型,适合 PoC 与试点;弹性扩容方便,基础设施运维压力较小。 |
|
主要劣势 |
一次性硬件和部署投入高,建设周期较长;模型升级、推理优化和故障处理依赖内部团队;复杂推理能力受本地算力与模型版本限制。 |
存在外网依赖,需要评估数据出域、脱敏和审计要求;长期高频调用后累计费用可能上升;高敏感控制场景需要更严格的权限与风控措施。 |
|
适用阶段 |
更适合试点成熟后、调用规模稳定且对数据本地化和长期可控性要求较高的阶段。 |
更适合项目初期快速验证业务价值、模型效果和场景边界的阶段。 |
5.5 初期建议采用方案二的原因
综合项目当前处于 PoC 与试点验证阶段,建议项目初期优先采用方案二(云端 API)作为主方案。核心原因在于方案二无需一次性投入约 30.5 万元的本地硬件采购成本即可快速启动验证;按上表测算,云端 API 月度成本约为 840 元至 7000 元,即使按较高档模型全年测算约 8.4 万元,初期总体投入仍明显低于方案一。
此外,方案二可直接获得更强的通用模型能力和更快的版本迭代速度,减少服务器采购、部署、驱动适配和模型运维等前置工作,使研发资源集中投入到多Agent 编排、Prompt 自学习和 WCS/WMS 场景打磨中。待试点场景稳定、调用规模放大且数据本地化要求进一步明确后,再评估引入方案一或形成“云端 API 先行验证 + 本地部署按需落地”的混合路线。
5.6 周期计划
项目建议周期为 12 个月,按照“PoC 验证 -> Pilot 试点 -> Production 准生产验证”的方式推进。前 3 个月完成基础底座和首批场景验证;第 4 至 8 个月完成安全治理、PromptOps 和中风险场景试点;第 9 至 12 个月完成试点闭环、指标复盘和成果固化,确保项目在 1 年内形成可验收成果。