AI Agent Skills 搜索与发现平台

每日精选skills数量

04/05 04/06 04/07 04/08 04/09 04/10 04/11

♾️免费开源 🛡️安全无忧

导入技能

综合排序下载最多点赞最多最多评论最新发布

langchain-ai

from GitHub 调研与分析

📄 SKILL.md

评估数据评测

eval-writer

为 deepagentsjs monorepo 创建新的评估套件。处理数据集设计、测试用例支架、评分逻辑、vitest 配置和 LangSmith 集成。当用户要求执行以下操作时使用：(1) 创建评估，(2) 编写评估，(3) 添加基准，(4) 构建评估套件，(5) 评估代理行为，(6) 添加功能测试用例，或 (7) 实施现有基准（例如 oolong、AgentBench、SWE-bench）。触发“create eval”、“new eval”、“add eval”、“benchmark”、“evaluate”、“eval suite”、“write evals for”等短语。

⬇0 ❤1K 11天前 · 上传详情页 →

guanyang

from GitHub 数据与AI

📁 references/
📁 scripts/
📄 SKILL.md

评测偏见法学硕士作

advanced-evaluation

当用户要求“实施LLM作为法官”、“比较模型输出”、“创建评估标准”、“减轻评估偏差”或提到直接评分、成对比较、位置偏差、评估流程或自动质量评估时，应使用此技能。

⬇0 ❤573 10天前 · 上传详情页 →

agentscope-ai

from GitHub 数据与AI

📄 SKILL.md

查询模型评测

auto-arena

自动评估和比较多个 AI 模型或代理，无需预先存在测试数据。从任务描述生成测试查询，从所有目标端点收集响应，自动生成评估标准，通过判断模型运行成对比较，并通过报告和图表生成胜率排名。支持检查点恢复、增量端点添加、判断模型热插拔。当用户要求在自定义任务上对多个模型或代理进行比较、基准测试或排名，或运行竞技场式评估时使用。 --- # Auto Arena Skill 使用 OpenJudge `AutoArenaPipeline` 进行端到端自动化模型比较： 1. **生成查询** — LLM 根据任务描述创建不同的测试查询 2. **收集响应** — 同时查询所有目标端点 3. **生成细则** — LLM 从任务 + 示例查询中生成评估标准 4. **成对评估** - 判断模型比较每个模型对（位置偏差交换） 5. **分析和排名** - 计算胜率、胜率矩阵和排名 6. **报告和图表** - Markdown 报告 + 胜率条形图 + 可选矩阵热图 ## 先决条件 ```bash # 安装 OpenJudge pip install py-openjudge # auto_arena （图表生成）的额外依赖项 pip install matplotlib ``` ## 之前从用户处收集跑步|信息 |必需的？ |笔记| |------|---------|--------| |任务描述|是的 |模型/代理应该做什么（在配置 YAML 中设置）| |目标端点|是的 |至少 2 个 OpenAI 兼容端点可供比较 | |判断端点|是的 |用于成对评估的强大模型（例如“gpt-4”、“qwen-max”）| | API 密钥 |是的 |环境变量：`OPENAI_API_KEY`、`DASHSCOPE_API_KEY`等。 | |查询数量 |没有 |默认值：`20` | |种子查询 |没有 |指导生成风格的示例查询 | |系统提示|没有 |每个端点系统提示| |输出目录 |没有 |默认值：`./evaluation_results` | |报告语言 |没有 | `"zh"`（默认）或 `"en"` | ## 快速启动 ### CLI `

⬇0 ❤509 10天前 · 上传详情页 →

allenai

from GitHub 调研与分析

📄 SKILL.md

评测添加新的

add-benchmark

向 VLA 评估工具添加新的模拟基准。每当用户想要集成、创建或添加新的基准或模拟环境时，请使用此技能 - 例如“添加 ManiSkill3”、“集成 OmniGibson”、“连接新的 sim”。当他们询问基准测试的结构或想要了解基准测试界面时也可以使用。

⬇0 ❤191 11天前 · 上传详情页 →

benchflow-ai

from GitHub 工具与效率

📁 references/
📁 tasks/
📄 SKILL.md

智能体自动化评测

benchflow

使用 BenchFlow 运行代理基准测试、创建任务、分析结果和管理代理。当要求对 AI 编码代理进行基准测试、运行基准测试套件、创建任务、查看轨迹或比较代理性能时使用。

⬇0 ❤197 12天前 · 上传详情页 →

ory

from GitHub 调研与分析

📄 SKILL.md

添加长凳评测

add-benchmark

从真正的 GitHub 错误修复中添加新的 SWE 基准测试任务。当用户提供 GitHub 问题或 PR URL 并希望将其添加到 bench-swe 管道时使用。

⬇0 ❤134 9天前 · 上传详情页 →

poemswe

from GitHub 内容与多媒体

📄 SKILL.md

批判地评测论点

analyze

通过严格的评估批判性地分析内容、主张或论点。

⬇0 ❤59 9天前 · 上传详情页 →

mlflow

from GitHub 工具与效率

📁 assets/
📁 references/
📁 scripts/
📄 SKILL.md

自动化数据评测

agent-evaluation

当您需要评估、改进或优化现有 LLM 代理的输出质量时，请使用此选项 - 包括提高工具选择准确性、答案质量、降低成本或解决代理给出错误/不完整响应的问题。使用 MLflow 评估与数据集、评分器和跟踪系统地评估代理。重要信息 - 在开始任何工作之前，始终加载 Instrumenting-with-mlflow-tracing 技能。涵盖端到端评估工作流程或单个组件（跟踪设置、数据集创建、评分器定义、评估执行）。

⬇0 ❤20 10天前 · 上传详情页 →

netease-youdao

from GitHub 调研与分析

📁 examples/
📁 scripts/
📁 server/
📄 .gitignore
📄 group.jpg
📄 install.sh

数据带代码的论评测

scholarclaw

学术论文搜索与分析服务 (Academic paper search & analysis)。当用户涉及以下学术场景时，必须使用本 skill 而非 web-search：搜索论文、查找 ArXiv/PubMed/PapersWithCode 论文、查询 SOTA 榜单与 benchmark 结果、引用分析、生成论文解读博客、查找论文相关 GitHub 仓库、获取热门论文推荐。Keywords: arxiv, paper, papers, academic, scholar, research, 论文, 学术, 搜索论文, 找论文, SOTA, benchmark, MMLU, citation, 引用, 博客, blog, PapersWithCode, HuggingFace.

⬇0 ❤9 7天前 · 上传详情页 →

akshansh

from GitHub 开发与编程

📄 SKILL.md

建议优先的评测

ade-audit

在页面上运行完整的“构建 + 样式 + 移动 + 写入”评估 - 对每个框架进行评分，生成一份综合报告（满分 /200），并在所有四个框架中提供优先建议。

⬇0 ❤7 10天前 · 上传详情页 →

UKGovernmentBEIS

from GitHub 调研与分析

📄 SKILL.md

数据数据框评测

inspect-ai

分析检查 AI 评估日志，了解 EvalLog 结构，使用数据帧提取样本、事件和评分数据

⬇0 ❤7 12天前 · 上传详情页 →

skilltester-ai

from GitHub 调研与分析

📄 SKILL.md

什么时候描述评测

skilltester

Before installing or using a skill, check its independent benchmark report on SkillTester.ai. Trigger this skill when the user is about to install a third-party skill, or when the user explicitly says `Check this skill <skill_url>`.将提供的 URL 解析为 SKILL.md，提取名称和描述，按名称查询服务器，并在描述为完全匹配或可能代表较新技能修订的高重叠近似匹配时返回基准测试结果。

⬇0 ❤5 10天前 · 上传详情页 →

‹ 1 ›

创作者贡献榜

发布最多获赞最多回复最多

1 暂无数据 --
2 暂无数据 --
3 暂无数据 --
4 暂无数据 --
5 暂无数据 --
6 暂无数据 --
7 暂无数据 --
8 暂无数据 --
9 暂无数据 --
10 暂无数据 --
11 暂无数据 --
12 暂无数据 --
13 暂无数据 --
14 暂无数据 --
15 暂无数据 --
16 暂无数据 --

Skills文件组织结构基本样例（仅作参考）

skill-sample/
├─ SKILL.md              ⭐ 必备：技能说明入口：用途 / 安装 / 用法 / 示例 / 依赖
├─ manifest.sample.json  ⭐ 推荐：机器可读元信息：用于索引 / 校验 / 自动填表
├─ LICENSE.sample        ⭐ 推荐：授权与使用范围：开源 / 限制 / 商用说明
├─ scripts/
│  └─ example-run.py     ✅ 可运行示例脚本：让用户导入后立刻验证“能用”
├─ assets/
│  ├─ example-formatting-guide.md  🧩 输出规范：统一排版 / 结构 / 风格
│  └─ example-template.tex         🧩 模板资源：报告/文档模板，快速生成标准产物
└─ references/           🧩 参考资料库：方法论 / 结构指南 / 最佳实践
   ├─ example-ref-structure.md     🧩 结构参考：章节框架 / 目录组织
   ├─ example-ref-analysis.md      🧩 分析参考：常用套路 / 指标口径
   └─ example-ref-visuals.md       🧩 视觉参考：图表规范 / 可视化建议

更多 Agent Skills 规范详见Anthropic官方文档：https://agentskills.io/home

SKILL.md 内容要求

├─ ⭐ 必备：YAML Frontmatter（必须存在，放在文件最顶部）
│  ├─ ⭐ name                 ：技能唯一名；须符合命名规则，并建议与目录名一致
│  └─ ⭐ description          ：技能描述；建议包含触发关键词（便于检索/匹配）
│
├─ ✅ 可选：Frontmatter 扩展字段（规范允许，但非强制）
│  ├─ ✅ license              ：许可证标识（也可配合单独 LICENSE 文件）
│  ├─ ✅ compatibility        ：兼容性/运行环境要求（仅在确实有限制时写）
│  ├─ ✅ metadata             ：任意键值对（如 author/version/source_url 等）
│  └─ 🧩 allowed-tools        ：允许工具白名单（规范标注为 experimental）
│
└─ ✅ 推荐：Markdown 正文（自由格式，但建议按“渐进式披露”组织）
   ├─ ✅ Overview / Purpose   ：一句话说明目标 + 不做什么（边界）
   ├─ ✅ When to use          ：触发条件/适用场景（让模型/用户知道何时调用）
   ├─ ✅ Step-by-step         ：步骤化流程（最好 3–6 步，保证可复现）
   ├─ ✅ Inputs / Outputs     ：输入格式、输出格式、产物位置（文件/文本/JSON等）
   ├─ ✅ Examples             ：至少 1 个可复制示例（越“能跑”越好）
   ├─ 🧩 Files & References   ：引用assets/、references/、scripts/（相对路径）
   ├─ 🧩 Edge cases           ：边界情况/限制（大文件、速率限制、失败回退）
   ├─ 🧩 Troubleshooting      ：常见错误与解决（依赖缺失、路径不对、权限问题）
   └─ 🧩 Safety notes         ：涉及联网/写文件/执行命令时给出提醒（建议写）

为什么选择 SkillWink？

在 GitHub 和各类社区里，技能文件分散、难检索、也难判断是否可靠。SkillWink 把开源技能集中整理成可搜索、可筛选、可直接下载使用的技能库，让你更快找到“正好能用”的那一个。并且支持在SkillWink上直接上传skills。

我们提供 AI 语义搜索 + 关键字检索，支持版本更新与多维排序（下载/点赞/评论/更新），并为每个技能提供 SKILL.md 开放标准与来源信息。你还可以在详情页直接评论讨论、交流用法与改进建议。

AI 语义搜索关键词检索版本更新多维排序开放标准评论交流

快速上手：

支持下载与导入 skills（.zip/.skill），本地放置后即可生效：

~/.claude/skills/（Claude Code）

~/.codex/skills/（Codex CLI）

~/.gemini/skills/（Gemini CLI）

同一份 SKILL.md 跨平台通用。

常见问题解答（FAQ）

你需要了解的：技能是什么、怎么运行的、怎么找、怎么导入、怎么判断可信、怎么参与共建。

1，什么是Agent Skills?

这里的“skills（技能）”是一种可复用的任务能力包，通常包含 SKILL.md 说明（用途、输入输出、使用方法）以及可选的脚本/模板/示例文件。

你可以把它理解为：给 AI 助手或工具链用的“插件说明书 + 资源包”，可被反复安装与分享。

2，Skills是怎么运行的？

技能系统采用“渐进式披露”策略，高效管理上下文信息，具体流程如下：

发现阶段：系统启动时，智能体仅加载各技能的名称与简要描述——信息精简，足以判断其适用场景，避免冗余加载。

激活阶段：当任务需求与某技能描述匹配时，智能体才将对应的完整 SKILL.md 说明文档动态载入上下文。

执行阶段：智能体严格遵循文档指引执行操作，并按需调用关联文件或运行内置代码模块。

核心优势：该设计使智能体始终保持轻量高效，同时具备“按需扩展上下文”的能力，既保障响应速度，又确保复杂任务拥有充分执行依据。

3，我该怎么快速找到想要的技能？

4，SkillWink 支持哪些导入方式？

上传归档文件导入：.zip / .skill 一键导入（推荐）
上传skills文件夹
从GitHub仓库导入

注：以上导入方式文件大小控制在10M之内。

5，在Claude / Codex 等系统中如何是使用？

常见路径如下（不同系统略有差异，以你本机为准）：

Claude Code：~/.claude/skills/
Codex CLI：~/.codex/skills/

同一份 SKILL.md 通常可以跨工具复用。你在 SkillWink 导入后，也可以查看“放置指引/安装说明”。

6，一个技能能不能被多个工具一起用？

可以。很多技能本质是标准化说明 + 资源，只要目标工具支持读取该格式，就能共享使用。

比如：检索类技能 + 写作类技能 + 自动化脚本，形成“发现 → 处理 → 输出”的工作流。

7，这些skills使用安全吗？

一部分skills来源于公开的 GitHub 仓库。我们会筛掉低质量仓库（至少 2 星），并扫描基本质量指标，还有一部分是SkillWink平台的创作者独立上传的。作为使用者，在安装前应始终审查代码，对安全问题负责。

8，为什么我导入后“没有生效”？

最常见原因是这几类：

放错目录（路径不对、层级多了一层）
SKILL.md 缺字段或格式不规范（名称/入口/依赖不完整）
依赖未安装（Python/Node/CLI 工具缺失）
工具未重新加载技能（某些环境需要重启/刷新）

9，SkillWink 会不会收录重复或低质量技能？

我们会尽量避免。你可以用排序 + 评论让“好用的”更靠前：

重复技能：看差异点（更快/更稳定/更强主题能力）
低质量技能：我们会定期清理低质量skills