🧠 Braintrust: LLM 开发运维多合一,测试,评估,开发,日志
Braintrust 是一个专为构建 LLM 应用设计的开发运维平台,它通过集成评估、监控与实验管理,加速 Prompt 从原型到生产环境的开发。
✨ 特点
- 评估引擎:自定义标准,量化 LLM 输出质量。
- Prompt:版本化 Prompt,跟踪其性能变化,并与生产代码库同步。
- 评分器:通过代码函数或自然语言指令编写自定义评分标准,从简单的启发式规则到利用 LLM 评估。
- 数据集:将来自生产环境的用户交互数据或测试样例整合成可版本化、可扩展的测试数据集,作为评估基准。
- 日志:和主流框架结合,记录模型,Token,成本
- 追踪:生成 LLM 交互的详细执行记录,可视化展示嵌套的工具调用、检索操作和模型调用。
👨🏻💻 使用场景
- 迭代和优化 LLM 应用:系统性地回答“修改 Prompt 后哪些案例效果变差了?”或“换用新模型后表现如何?”等问题,用工程化方法取代凭感觉的调优。
- 连接生产反馈与测试:将生产环境中的真实用户交互数据(例如用户点赞/点踩的记录)自动沉淀为评估数据集,形成持续改进的闭环。
Notion 的 AI 问答:Notion 使用 Braintrust 为其 Q&A 功能创建了数百个专项功能测试集。通过建立连接生产日志和测试数据集的持续评估流程,其问题修复能力从每天 3 个提升至 30 个。
💬 社区评价
“Braintrust 填补了评估非确定性 AI 系统这个关键且缺失的环节。” — Mike Knoop, Cofounder/Head of AI @ Notion
“我从未见过像这样将‘评估’融入‘Prompt 工程’流程的工作流变革。这太惊人了。” — Malte Ubl, CTO @ Vercel
“我们把所有东西都记录到 Braintrust。他们让发现和修复问题变得非常容易。” — Simon Last, Cofounder @ Codium
💰 定价
- 免费:免费套餐,每月包含 100 万次追踪 和 1 万次评分,适合个人开发者和初期原型验证。
- Pro:$249/月,每月包含 5GB 处理数据和 5 万次评分,无追踪次数限制。
信息来源:TG频道@NewlearnerChannel