🧠 Braintrust: LLM 开发运维多合一,测试,评估,开发,日志

Braintrust 是一个专为构建 LLM 应用设计的开发运维平台,它通过集成评估、监控与实验管理,加速 Prompt 从原型到生产环境的开发。

特点

  • 评估引擎:自定义标准,量化 LLM 输出质量。
  • Prompt:版本化 Prompt,跟踪其性能变化,并与生产代码库同步。
  • 评分器:通过代码函数或自然语言指令编写自定义评分标准,从简单的启发式规则到利用 LLM 评估。
  • 数据集:将来自生产环境的用户交互数据或测试样例整合成可版本化、可扩展的测试数据集,作为评估基准。
  • 日志:和主流框架结合,记录模型,Token,成本
  • 追踪:生成 LLM 交互的详细执行记录,可视化展示嵌套的工具调用、检索操作和模型调用。

👨🏻‍💻 使用场景

  • 迭代和优化 LLM 应用:系统性地回答“修改 Prompt 后哪些案例效果变差了?”或“换用新模型后表现如何?”等问题,用工程化方法取代凭感觉的调优。
  • 连接生产反馈与测试:将生产环境中的真实用户交互数据(例如用户点赞/点踩的记录)自动沉淀为评估数据集,形成持续改进的闭环。

Notion 的 AI 问答:Notion 使用 Braintrust 为其 Q&A 功能创建了数百个专项功能测试集。通过建立连接生产日志和测试数据集的持续评估流程,其问题修复能力从每天 3 个提升至 30 个。

💬 社区评价

“Braintrust 填补了评估非确定性 AI 系统这个关键且缺失的环节。” — Mike Knoop, Cofounder/Head of AI @ Notion

“我从未见过像这样将‘评估’融入‘Prompt 工程’流程的工作流变革。这太惊人了。” — Malte Ubl, CTO @ Vercel

“我们把所有东西都记录到 Braintrust。他们让发现和修复问题变得非常容易。” — Simon Last, Cofounder @ Codium

💰 定价

  • 免费:免费套餐,每月包含 100 万次追踪 和 1 万次评分,适合个人开发者和初期原型验证。
  • Pro:$249/月,每月包含 5GB 处理数据和 5 万次评分,无追踪次数限制。

信息来源:TG频道@NewlearnerChannel

Avatar photo

By Tony

Share via
Copy link