- 📁 references/
- 📁 scripts/
- 📄 SKILL.md
advanced-evaluation
当用户要求“实施LLM作为法官”、“比较模型输出”、“创建评估标准”、“减轻评估偏差”或提到直接评分、成对比较、位置偏差、评估流程或自动质量评估时,应使用此技能。
当用户要求“实施LLM作为法官”、“比较模型输出”、“创建评估标准”、“减轻评估偏差”或提到直接评分、成对比较、位置偏差、评估流程或自动质量评估时,应使用此技能。
自动评估和比较多个 AI 模型或代理,无需预先存在测试数据。从任务描述生成测试查询,从所有目标端点收集响应,自动生成评估标准,通过判断模型运行成对比较,并通过报告和图表生成胜率排名。支持检查点恢复、增量端点添加、判断模型热插拔。当用户要求在自定义任务上对多个模型或代理进行比较、基准测试或排名,或运行竞技场式评估时使用。 --- # Auto Arena Skill 使用 OpenJudge `AutoArenaPipeline` 进行端到端自动化模型比较: 1. **生成查询** — LLM 根据任务描述创建不同的测试查询 2. **收集响应** — 同时查询所有目标端点 3. **生成细则** — LLM 从任务 + 示例查询中生成评估标准 4. **成对评估** - 判断模型比较每个模型对(位置偏差交换) 5. **分析和排名** - 计算胜率、胜率矩阵和排名 6. **报告和图表** - Markdown 报告 + 胜率条形图 + 可选矩阵热图 ## 先决条件 ```bash # 安装 OpenJudge pip install py-openjudge # auto_arena (图表生成)的额外依赖项 pip install matplotlib ``` ## 之前从用户处收集跑步|信息 |必需的? |笔记| |------|---------|--------| |任务描述|是的 |模型/代理应该做什么(在配置 YAML 中设置)| |目标端点|是的 |至少 2 个 OpenAI 兼容端点可供比较 | |判断端点|是的 |用于成对评估的强大模型(例如“gpt-4”、“qwen-max”)| | API 密钥 |是的 |环境变量:`OPENAI_API_KEY`、`DASHSCOPE_API_KEY`等。 | |查询数量 |没有 |默认值:`20` | |种子查询 |没有 |指导生成风格的示例查询 | |系统提示|没有 |每个端点系统提示| |输出目录 |没有 |默认值:`./evaluation_results` | |报告语言 |没有 | `"zh"`(默认)或 `"en"` | ## 快速启动 ### CLI `
通过严格的评估批判性地分析内容、主张或论点。
当您需要评估、改进或优化现有 LLM 代理的输出质量时,请使用此选项 - 包括提高工具选择准确性、答案质量、降低成本或解决代理给出错误/不完整响应的问题。使用 MLflow 评估与数据集、评分器和跟踪系统地评估代理。重要信息 - 在开始任何工作之前,始终加载 Instrumenting-with-mlflow-tracing 技能。涵盖端到端评估工作流程或单个组件(跟踪设置、数据集创建、评分器定义、评估执行)。
在页面上运行完整的“构建 + 样式 + 移动 + 写入”评估 - 对每个框架进行评分,生成一份综合报告(满分 /200),并在所有四个框架中提供优先建议。
分析检查 AI 评估日志,了解 EvalLog 结构,使用数据帧提取样本、事件和评分数据
skill-sample/ ├─ SKILL.md ⭐ 必备:技能说明入口:用途 / 安装 / 用法 / 示例 / 依赖 ├─ manifest.sample.json ⭐ 推荐:机器可读元信息:用于索引 / 校验 / 自动填表 ├─ LICENSE.sample ⭐ 推荐:授权与使用范围:开源 / 限制 / 商用说明 ├─ scripts/ │ └─ example-run.py ✅ 可运行示例脚本:让用户导入后立刻验证“能用” ├─ assets/ │ ├─ example-formatting-guide.md 🧩 输出规范:统一排版 / 结构 / 风格 │ └─ example-template.tex 🧩 模板资源:报告/文档模板,快速生成标准产物 └─ references/ 🧩 参考资料库:方法论 / 结构指南 / 最佳实践 ├─ example-ref-structure.md 🧩 结构参考:章节框架 / 目录组织 ├─ example-ref-analysis.md 🧩 分析参考:常用套路 / 指标口径 └─ example-ref-visuals.md 🧩 视觉参考:图表规范 / 可视化建议
更多 Agent Skills 规范 详见Anthropic官方文档:https://agentskills.io/home
├─ ⭐ 必备:YAML Frontmatter(必须存在,放在文件最顶部) │ ├─ ⭐ name :技能唯一名;须符合命名规则,并建议与目录名一致 │ └─ ⭐ description :技能描述;建议包含触发关键词(便于检索/匹配) │ ├─ ✅ 可选:Frontmatter 扩展字段(规范允许,但非强制) │ ├─ ✅ license :许可证标识(也可配合单独 LICENSE 文件) │ ├─ ✅ compatibility :兼容性/运行环境要求(仅在确实有限制时写) │ ├─ ✅ metadata :任意键值对(如 author/version/source_url 等) │ └─ 🧩 allowed-tools :允许工具白名单(规范标注为 experimental) │ └─ ✅ 推荐:Markdown 正文(自由格式,但建议按“渐进式披露”组织) ├─ ✅ Overview / Purpose :一句话说明目标 + 不做什么(边界) ├─ ✅ When to use :触发条件/适用场景(让模型/用户知道何时调用) ├─ ✅ Step-by-step :步骤化流程(最好 3–6 步,保证可复现) ├─ ✅ Inputs / Outputs :输入格式、输出格式、产物位置(文件/文本/JSON等) ├─ ✅ Examples :至少 1 个可复制示例(越“能跑”越好) ├─ 🧩 Files & References :引用assets/、references/、scripts/(相对路径) ├─ 🧩 Edge cases :边界情况/限制(大文件、速率限制、失败回退) ├─ 🧩 Troubleshooting :常见错误与解决(依赖缺失、路径不对、权限问题) └─ 🧩 Safety notes :涉及联网/写文件/执行命令时给出提醒(建议写)
在 GitHub 和各类社区里,技能文件分散、难检索、也难判断是否可靠。SkillWink 把开源技能集中整理成可搜索、可筛选、可直接下载使用的技能库,让你更快找到“正好能用”的那一个。并且支持在SkillWink上直接上传skills。
我们提供 AI 语义搜索 + 关键字检索,支持 版本更新与多维排序(下载/点赞/评论/更新),并为每个技能提供 SKILL.md 开放标准与来源信息。你还可以在详情页直接 评论讨论、交流用法与改进建议。
快速上手:
支持下载与导入 skills(.zip/.skill),本地放置后即可生效:
~/.claude/skills/(Claude Code)
~/.codex/skills/(Codex CLI)
~/.gemini/skills/(Gemini CLI)
同一份 SKILL.md 跨平台通用。
你需要了解的:技能是什么、怎么运行的、怎么找、怎么导入、怎么判断可信、怎么参与共建。
这里的“skills(技能)”是一种可复用的任务能力包,通常包含 SKILL.md 说明(用途、输入输出、使用方法)以及可选的脚本/模板/示例文件。
你可以把它理解为:给 AI 助手或工具链用的“插件说明书 + 资源包”,可被反复安装与分享。
技能系统采用“渐进式披露”策略,高效管理上下文信息,具体流程如下:
发现阶段:系统启动时,智能体仅加载各技能的名称与简要描述——信息精简,足以判断其适用场景,避免冗余加载。
激活阶段:当任务需求与某技能描述匹配时,智能体才将对应的完整 SKILL.md 说明文档动态载入上下文。
执行阶段:智能体严格遵循文档指引执行操作,并按需调用关联文件或运行内置代码模块。
核心优势:该设计使智能体始终保持轻量高效,同时具备“按需扩展上下文”的能力,既保障响应速度,又确保复杂任务拥有充分执行依据。
推荐 3 种方式组合使用:
注:以上导入方式文件大小控制在10M之内。
常见路径如下(不同系统略有差异,以你本机为准):
同一份 SKILL.md 通常可以跨工具复用。你在 SkillWink 导入后,也可以查看“放置指引/安装说明”。
可以。很多技能本质是标准化说明 + 资源,只要目标工具支持读取该格式,就能共享使用。
比如:检索类技能 + 写作类技能 + 自动化脚本,形成“发现 → 处理 → 输出”的工作流。
一部分skills来源于公开的 GitHub 仓库。我们会筛掉低质量仓库(至少 2 星),并扫描基本质量指标,还有一部分是SkillWink平台的创作者独立上传的。作为使用者,在安装前应始终审查代码,对安全问题负责。
最常见原因是这几类:
我们会尽量避免。你可以用 排序 + 评论 让“好用的”更靠前: