Braintrust: LLM 开发运维多合一，测试，评估，开发，日志 - 666News

Braintrust: LLM 开发运维多合一，测试，评估，开发，日志

By Tony 2025-07-15 #Apps, #newlearner

🧠 Braintrust: LLM 开发运维多合一，测试，评估，开发，日志

Braintrust 是一个专为构建 LLM 应用设计的开发运维平台，它通过集成评估、监控与实验管理，加速 Prompt 从原型到生产环境的开发。

✨ 特点

评估引擎：自定义标准，量化 LLM 输出质量。
Prompt：版本化 Prompt，跟踪其性能变化，并与生产代码库同步。
评分器：通过代码函数或自然语言指令编写自定义评分标准，从简单的启发式规则到利用 LLM 评估。
数据集：将来自生产环境的用户交互数据或测试样例整合成可版本化、可扩展的测试数据集，作为评估基准。
日志：和主流框架结合，记录模型，Token，成本
追踪：生成 LLM 交互的详细执行记录，可视化展示嵌套的工具调用、检索操作和模型调用。

👨🏻‍💻 使用场景

迭代和优化 LLM 应用：系统性地回答“修改 Prompt 后哪些案例效果变差了？”或“换用新模型后表现如何？”等问题，用工程化方法取代凭感觉的调优。
连接生产反馈与测试：将生产环境中的真实用户交互数据（例如用户点赞/点踩的记录）自动沉淀为评估数据集，形成持续改进的闭环。

Notion 的 AI 问答：Notion 使用 Braintrust 为其 Q&A 功能创建了数百个专项功能测试集。通过建立连接生产日志和测试数据集的持续评估流程，其问题修复能力从每天 3 个提升至 30 个。

💬 社区评价

“Braintrust 填补了评估非确定性 AI 系统这个关键且缺失的环节。” — Mike Knoop, Cofounder/Head of AI @ Notion

“我从未见过像这样将‘评估’融入‘Prompt 工程’流程的工作流变革。这太惊人了。” — Malte Ubl, CTO @ Vercel

“我们把所有东西都记录到 Braintrust。他们让发现和修复问题变得非常容易。” — Simon Last, Cofounder @ Codium

💰 定价

免费：免费套餐，每月包含 100 万次追踪和 1 万次评分，适合个人开发者和初期原型验证。
Pro：$249/月，每月包含 5GB 处理数据和 5 万次评分，无追踪次数限制。

信息来源：TG频道@NewlearnerChannel

By Tony

三网深港 IEPL/IPLC 专线 | 跨境直播·外贸办公首选稳定、低延迟、零丢包，助力您的业务扬帆出海！

为什么开发者选择 SurferCloud：无需 KYC、USDT 和总体系统主权 – SurferCloud 博客

🦞 OpenClaw：我见过最强的开源 Al Agent之一，，也有很明确的边界

📚 Zotero 8：大版本更新和发布节奏重构