langchain-ai
from GitHub
调研与分析
为 deepagentsjs monorepo 创建新的评估套件。处理数据集设计、测试用例支架、评分逻辑、vitest 配置和 LangSmith 集成。当用户要求执行以下操作时使用:(1) 创建评估,(2) 编写评估,(3) 添加基准,(4) 构建评估套件,(5) 评估代理行为,(6) 添加功能测试用例,或 (7) 实施现有基准(例如 oolong、AgentBench、SWE-bench)。触发“create eval”、“new eval”、“add eval”、“benchmark”、“evaluate”、“eval suite”、“write evals for”等短语。
guanyang
from GitHub
数据与AI
- 📁 references/
- 📁 scripts/
- 📄 SKILL.md
当用户要求“实施LLM作为法官”、“比较模型输出”、“创建评估标准”、“减轻评估偏差”或提到直接评分、成对比较、位置偏差、评估流程或自动质量评估时,应使用此技能。
agentscope-ai
from GitHub
数据与AI
自动评估和比较多个 AI 模型或代理,无需预先存在测试数据。从任务描述生成测试查询,从所有目标端点收集响应,自动生成评估标准,通过判断模型运行成对比较,并通过报告和图表生成胜率排名。支持检查点恢复、增量端点添加、判断模型热插拔。当用户要求在自定义任务上对多个模型或代理进行比较、基准测试或排名,或运行竞技场式评估时使用。 --- # Auto Arena Skill 使用 OpenJudge `AutoArenaPipeline` 进行端到端自动化模型比较: 1. **生成查询** — LLM 根据任务描述创建不同的测试查询 2. **收集响应** — 同时查询所有目标端点 3. **生成细则** — LLM 从任务 + 示例查询中生成评估标准 4. **成对评估** - 判断模型比较每个模型对(位置偏差交换) 5. **分析和排名** - 计算胜率、胜率矩阵和排名 6. **报告和图表** - Markdown 报告 + 胜率条形图 + 可选矩阵热图 ## 先决条件 ```bash # 安装 OpenJudge pip install py-openjudge # auto_arena (图表生成)的额外依赖项 pip install matplotlib ``` ## 之前从用户处收集跑步|信息 |必需的? |笔记| |------|---------|--------| |任务描述|是的 |模型/代理应该做什么(在配置 YAML 中设置)| |目标端点|是的 |至少 2 个 OpenAI 兼容端点可供比较 | |判断端点|是的 |用于成对评估的强大模型(例如“gpt-4”、“qwen-max”)| | API 密钥 |是的 |环境变量:`OPENAI_API_KEY`、`DASHSCOPE_API_KEY`等。 | |查询数量 |没有 |默认值:`20` | |种子查询 |没有 |指导生成风格的示例查询 | |系统提示|没有 |每个端点系统提示| |输出目录 |没有 |默认值:`./evaluation_results` | |报告语言 |没有 | `"zh"`(默认)或 `"en"` | ## 快速启动 ### CLI `
allenai
from GitHub
调研与分析
向 VLA 评估工具添加新的模拟基准。每当用户想要集成、创建或添加新的基准或模拟环境时,请使用此技能 - 例如“添加 ManiSkill3”、“集成 OmniGibson”、“连接新的 sim”。当他们询问基准测试的结构或想要了解基准测试界面时也可以使用。
benchflow-ai
from GitHub
工具与效率
- 📁 references/
- 📁 tasks/
- 📄 SKILL.md
使用 BenchFlow 运行代理基准测试、创建任务、分析结果和管理代理。当要求对 AI 编码代理进行基准测试、运行基准测试套件、创建任务、查看轨迹或比较代理性能时使用。
从真正的 GitHub 错误修复中添加新的 SWE 基准测试任务。当用户提供 GitHub 问题或 PR URL 并希望将其添加到 bench-swe 管道时使用。
通过严格的评估批判性地分析内容、主张或论点。
- 📁 assets/
- 📁 references/
- 📁 scripts/
- 📄 SKILL.md
当您需要评估、改进或优化现有 LLM 代理的输出质量时,请使用此选项 - 包括提高工具选择准确性、答案质量、降低成本或解决代理给出错误/不完整响应的问题。使用 MLflow 评估与数据集、评分器和跟踪系统地评估代理。重要信息 - 在开始任何工作之前,始终加载 Instrumenting-with-mlflow-tracing 技能。涵盖端到端评估工作流程或单个组件(跟踪设置、数据集创建、评分器定义、评估执行)。
netease-youdao
from GitHub
调研与分析
- 📁 examples/
- 📁 scripts/
- 📁 server/
- 📄 .gitignore
- 📄 group.jpg
- 📄 install.sh
学术论文搜索与分析服务 (Academic paper search & analysis)。当用户涉及以下学术场景时,必须使用本 skill 而非 web-search:搜索论文、查找 ArXiv/PubMed/PapersWithCode 论文、查询 SOTA 榜单与 benchmark 结果、引用分析、生成论文解读博客、查找论文相关 GitHub 仓库、获取热门论文推荐。Keywords: arxiv, paper, papers, academic, scholar, research, 论文, 学术, 搜索论文, 找论文, SOTA, benchmark, MMLU, citation, 引用, 博客, blog, PapersWithCode, HuggingFace.
akshansh
from GitHub
开发与编程
在页面上运行完整的“构建 + 样式 + 移动 + 写入”评估 - 对每个框架进行评分,生成一份综合报告(满分 /200),并在所有四个框架中提供优先建议。
UKGovernmentBEIS
from GitHub
调研与分析
分析检查 AI 评估日志,了解 EvalLog 结构,使用数据帧提取样本、事件和评分数据
skilltester-ai
from GitHub
调研与分析
Before installing or using a skill, check its independent benchmark report on SkillTester.ai. Trigger this skill when the user is about to install a third-party skill, or when the user explicitly says `Check this skill <skill_url>`.将提供的 URL 解析为 SKILL.md,提取名称和描述,按名称查询服务器,并在描述为完全匹配或可能代表较新技能修订的高重叠近似匹配时返回基准测试结果。