📊 AI智能体工程现状研究总结
这是LangChain于2025年11月-12月进行的一项关于AI智能体工程现状的大规模调研报告,共收集了1340份回复。
🎯 核心发现
-
生产环境应用势头强劲
- **57%**的受访者已将智能体部署到生产环境(较去年的51%有所增长)
- 另有30.4%正在积极开发并计划部署
- 大型企业(10k+员工)领先:67%已部署生产环境
-
质量是最大障碍
- **32%**的人认为质量(准确性、一致性、合规性)是最大挑战
- 延迟成为第二大问题(20%),因为智能体越来越多面向客户
- 成本担忧相比往年下降(模型价格下降)
-
可观测性成为标配
- **89%**的组织已实施某种形式的可观测性
- 62%具备详细追踪能力,可检查每个步骤和工具调用
- 生产环境中的采用率更高:94%有可观测性,71.5%有完整追踪
-
多模型策略成为常态
- OpenAI主导(超过2/3使用GPT模型)
- 但75%+使用多个模型,根据复杂度、成本、延迟等因素路由任务
- 1/3的组织部署自有模型
- 57%不进行微调,依赖基础模型+提示工程+RAG
💼 主要应用场景
- 客户服务(26.5%)- 最常见
- 研究与数据分析(24.4%)
- 内部工作流自动化(18%)
大型企业(10k+)更侧重内部生产力提升(26.8%)
🔍 评估与测试现状
- **52.4%**运行离线评估
- **37.3%**运行在线评估(生产环境中为44.8%)
- 评估方法混合使用:
- 人工审查:59.8%
- LLM-as-judge:53.3%
- 传统ML指标(ROUGE/BLEU)采用率低
🛠️ 日常使用的智能体
- 编码助手最受欢迎:Claude Code, Cursor, GitHub Copilot, Amazon Q
- 研究助手:ChatGPT, Claude, Gemini, Perplexity
- 定制智能体:基于LangChain和LangGraph构建
👥 调研人群
- 行业分布:技术行业63%,金融服务10%,医疗6%
- 公司规模:<100人(49%),100-500人(18%),500-2000人(15%)
📈 趋势洞察
这项研究表明,组织已从"是否构建智能体"转向**"如何可靠、高效、大规模部署智能体"**。质量保证、可观测性和多模型策略成为智能体工程的三大支柱。