2016年,AlphaGo击败围棋世界冠军,引发大众对AI能力的广泛关注;2022年,ChatGPT横空出世,掀起生成式AI产业的又一轮热潮。而今年,智能体成为推动走向更自主、更智能AI时代的关键引擎。这些改变的背后,是AI技术的不断成熟,是人工智能“眼”“脑”“手”能力的持续进化。
感知能力延伸:向多模态方向发展
“智能体泛指能够感知环境、理解信息并做出决策与行动的代理体,它具有自主性、适应性和交互能力。”赛迪研究院信软所人工智能产业研究室王宇霞告诉《中国电子报》记者。如今,智能体的能力边界正在被不断拓宽,从单一的文本交互,向融合视觉、听觉、动作等多模态信号的方向发展。报告表示,多模态大模型能帮助智能体实现跨模态理解,增强其对复杂信息的综合理解能力;同时,还能提升其多模态交互能力,提升用户使用体验。
安永大中华区人工智能与数据咨询服务联席主管合伙人陈剑光表示,企业Agent的多模态趋势,使得智能体能处理和应对更为复杂的企业场景。例如,办公场景中,文档、表单、仪表盘常以非结构化形式存在,智能体利用图像识别技术,能显著降低非结构化数据的解析难度,提升数据提取效率。工业场景下,智能体还能借助摄像头、麦克风等传感器,实现对工业环境、设备状态、物料特性等多维信息的采集,对产品缺陷或生产线异常进行自动化检测。
智能体走入生产场景
此外,融合语音识别与合成技术后,智能体还能构建更自然、逼真的数字人,应用于虚拟客服、培训助手等多元场景之中,可以为用户提供更丰富的输入、输出方式,以及多感官的交互体验。
推理能力革新:大小模型协同发力
如果说感知是智能体的眼睛,那么推理能力就是智能体核心的大脑。推理能力的增长和推理模式的优化推动智能体加速发展。
陈剑光指出,衡量企业智能体是否真正好用的两个关键指标是技术效能和业务价值。技术效能是智能体基础能力的量化体现,包括准确性、鲁棒性、响应速度、吞吐量等维度。业务价值则是证明智能体投入产出比的核心指标,体现其实际落地效果,包括效率提升、成本优化、质量提升等。
大小模型协同模式有效提升智能体适应能力,平衡技术效能与业务价值。大小模型之间存在互补效果,大模型虽性能强大,但需要消耗大量计算和存储资源;小模型虽性能有限,但在推理成本、资源消耗和部署效率上优势明显。
开源小模型不断涌现
实际应用中,智能体被期待具备灵活调用大小模型的能力。例如,在深度思考任务中使用大模型,在快速响应任务中调用小模型,以实现效率与性能的平衡。除此之外,大小模型之间还可能产生知识和能力的迁移,使得小模型在资源受限环境下仍能保持较高性能。
此外,更强大的记忆能力也是智能体“大脑”的重要发展方向。传统人工智能大多依赖短期上下文记忆,难以维持长期的知识积累、经验存储和记忆保存。据了解,字节跳动近期开源的M3-Agent多模态智能体框架,在这一方面取得了突破进展。智能体的记忆系统被进一步划分为记录具体事件的“情节记忆”功能和能提炼一般性知识的“语义记忆”功能,例如,智能体不仅能记住某人在早上喝了咖啡这一场景,还能归纳得出此人喜欢早上喝咖啡的抽象知识,从而更接近人类的记忆模式。
执行能力进化:工具调用能力提升
仅有感知和推理能力还不足以构成完整的智能体,执行层面的技术突破,正在决定智能体能否真正从理论构想迈向产业落地。
赛迪研究院信息化与软件产业研究所人工智能研究室主任王宇霞强调,智能体能够理解人类意图,自动拆解任务、作出决策,其最大特点就是能调用、使用工具。腾讯云副总裁、腾讯云智能及腾讯优图实验室负责人吴运声对此提出了更高的评价,认为智能体不仅能自主选择工具,甚至可以自动创造工具。
陈剑光表示,随着大模型理解、推理和规划能力的提升,智能体在预设规则和安全边界内的自主决策能力正在增强,能处理更复杂的规则组合,逐步从纯“执行者”向具有一定分析能力的“辅助决策者”角色演进。他指出,通过学习和掌握更广泛、更复杂的工具调用能力,智能体将更深度地嵌入现有业务流程,能够自动触发并协调后端系统的多项操作,从而形成更强的端到端自动化链条。
更值得关注的是,智能体还能通过协作机制实现能力集成。多个具备不同技能的智能体可以组成“团队”,通过明确的任务分配和协作机制,共同完成更复杂的、需要多步推理或跨系统协作的任务链,提升整体解决问题的能力上限。
智能体助力人机交互(图为AI生成)
然而,这一过程并不是一蹴而就的。吴运声以腾讯云业务实践为例,强调智能体应能融合确定的工作流和灵活的大模型,以满足更复杂多样的企业应用需求。他提出,腾讯云正在完善多智能体协同机制,通过任务拆解、容错补位等机制,构成自组织、自进化的“AI团队”,全面提升系统的鲁棒性与可靠性。
根据我国人工智能发展规划,到2027年,新一代智能终端、智能体等应用普及率预计将超过70%,到2030年,这一比例将进一步提升至90%以上。从感知、推理到执行,从单智能体到多智能体协同,技术突破正重塑智能体的多重能力,系统性地支撑其走向更广泛而深入的应用场景。