OAgents – OPPO开源的基础Agent框架

芊芊下载2025-06-29 16:44:4265次浏览

OAgents是什么

OAgents 是OPPO PersonalAI Lab推出的开源基础Agent框架。框架基于标准化的评估协议和模块化设计，推动Agent框架的研究。OAgents基于系统实证研究，分析关键Agent组件（如规划、工具使用、记忆等）的不同设计选择对性能的影响，推出一个更稳健的评估协议。框架在GAIA基准测试中取得最高的平均分数73.93%，在不同任务级别上均表现出色，证明设计的有效性和鲁棒性。OAgents支持多种Agent组件的集成，为未来的研究提供坚实的基础。 OAgents

OAgents的主要功能

多模态工具集成：OAgents整合处理文本、语音、图像和视频的多模态工具，直接与多模态输入进行交互，增强对复杂现实场景中事实信息的获取和解读能力。
优化的搜索Agent：基于优化多源检索、查询优化和极简浏览架构，OAgents能有效地进行网络搜索，扩展知识边界，为复杂任务提供更准确的信息支持。
动态规划与任务分解：用动态规划机制，将复杂任务分解为可执行的子任务，根据实时观察结果动态调整计划，提高复杂任务的管理能力和推理效率。
记忆增强知识系统：OAgents构建层次化的记忆模块，包括当前记忆、记忆总结、向量化检索和长期记忆，增强Agent的认知能力，帮助Agent在复杂环境中更有效地进行感知、推理和决策。
测试时扩展策略：OAgents在测试阶段用扩展策略，如多样性增强、优化和奖励建模，基于动态调整决策过程，提高代理的适应性和探索能力，提升整体性能。

OAgents的技术原理

多模态工具原理：OAgents的多模态工具将非文本内容转换为文本描述，同步进行跨模态语义解析，实现对多模态输入的直接交互和理解，公式表示为：Response = A(xtext,Timage(I),Tvideo(V ))，A是Agent函数，xtext是文本输入，Timage和Tvideo分别是图像和视频的工具函数。
搜索Agent原理：OAgents的搜索Agent框架整合商业API和档案系统，实现多源检索；基于语义校准和形态扩展的闭环优化查询；简化为三个原子函数，搜索、访问和阅读，降低复杂性。
动态规划原理：OAgents的动态规划模块生成高级计划，将任务分解为可执行步骤，在执行过程中根据新观察结果定期修订计划，适应动态环境。OAgents采用层次化任务分解，构建依赖图，动态调度可执行子任务。
记忆增强原理：OAgents的记忆模块基于当前记忆存储短期信息，用记忆总结提取高价值知识，基于向量化检索快速检索相关历史记忆，用长期记忆整合历史洞察，优化任务执行。
测试时扩展原理：OAgents的测试时扩展模块混合采样策略增强多样性，基于过程的奖励函数优化决策路径，用实时反思机制进行自适应问题解决。

OAgents的项目地址

GitHub仓库：https://github.com/OPPO-PersonalAI/OAgents
arXiv技术论文：https://arxiv.org/pdf/2506.15741

OAgents的应用场景

智能客服：快速准确地回答客户问题，提供个性化的解决方案，处理复杂的客户咨询，提高客户满意度。
教育辅导：为学生提供个性化的学习计划，根据学习进度和反馈动态调整教学内容，处理多种学习材料，提供丰富的学习体验。
医疗咨询：协助医生进行病历分析、诊断建议和治疗方案制定，获取最新的医学研究和临床指南，提供数据驱动的决策支持。
智能办公助手：协助用户安排日程、撰写报告、整理会议记录，记住用户的偏好和习惯，提供个性化的办公支持。
智能家居控制：集成多种智能家居设备，基于语音或文本指令控制设备，实现自动化场景，提供自然的交互体验。

Qwen VLo – 通义千问推出的多模态统一理解与生成模型袋鼠参谋 – 美团推出的商家AI智能决策应用