ChainForge 开源可视化编程环境
ChainForge 是一个数据流提示工程环境,用于分析和评估 LLM 响应。它旨在对提示、聊天响应和响应质量进行早期、快速而直接的探索,而不仅仅是与个别 LLM 的临时聊天。使用 ChainForge,你可以:
一次查询多个 LLM,快速有效地测试提示的想法和变化。
比较不同提示排列、不同模型和不同模型设置的响应质量,以选择最适合你的用例的提示和模型。
设置评估指标(评分函数)并立即可视化提示、提示参数、模型和模型设置的结果。
跨模板参数和聊天模型同时进行多个对话。模板不仅仅是提示,还包括后续聊天消息,并在每次聊天对话时检查和评估输出。
ChainForge 附带了许多示例评估流程,让你了解可能性,其中包括根据 OpenAI 评估中的基准生成的 188 个示例流程。