- 📁 references/
- 📄 SKILL.md
add-diffusion-model
向 vLLM-Omni 添加新的扩散模型(文本到图像、文本到视频、图像到视频、文本到音频、图像编辑),包括 Cache-DiT 加速和并行支持(TP、SP/USP、CFG-Parallel、HSDP)。在集成新的扩散模型、将扩散器管道或自定义模型存储库移植到 vllm-omni、创建新的 DiT 转换器适配器、添加扩散模型支持或为现有模型启用多 GPU 并行性和缓存加速时使用。
向 vLLM-Omni 添加新的扩散模型(文本到图像、文本到视频、图像到视频、文本到音频、图像编辑),包括 Cache-DiT 加速和并行支持(TP、SP/USP、CFG-Parallel、HSDP)。在集成新的扩散模型、将扩散器管道或自定义模型存储库移植到 vllm-omni、创建新的 DiT 转换器适配器、添加扩散模型支持或为现有模型启用多 GPU 并行性和缓存加速时使用。
通过 SSH 连接到主机“h100_sglang”,进入 Docker 容器“sglang_bbuf”,在“/data/bbuf/repos/sglang”中工作,并使用准备好的 H100 远程环境进行 SGLang **diffusion** 开发和验证。当任务需要扩散模型冒烟测试、Triton/CUDA 内核验证、torch.compile 扩散检查或用于扩散特定 SGLang 更改的安全远程副本时使用。
扩散模型的实用工程:架构、训练、推理、内存优化。用于具有扩散模型的任何任务:设计或修改架构(UNet/DiT/Flow/Flux)、调度器/采样器的选择和配置、附加训练(LoRA/DreamBooth/完全微调)、内存优化(AMP/检查点/ZeRO/FSDP/量化)、文本编码器的替换或融合(CLIP/Qwen)、使用扩散器、调试扩散管道、质量评估(FID/CLIPScore/LPIPS)、潜扩散、VAE、引导/CFG、整流流、稳定扩散、SDXL、通量。在训练生成模型、文本到图像管道、ControlNet、多编码器融合、WebDataset 时询问有关 GPU 内存的问题时也可使用。 --- # 扩散工程技能 ## 快速定位 最影响质量/速度/成本的三个工程决策是: 1. **扩散在哪里** → 像素(昂贵)或潜在空间(LDM/SD 系列 - 实用) 2. **降噪器的骨干** → UNet(经典,更简单)或 Transformer/DiT/Flow(缩放更好) 3. **采样控制** → 调度程序、步骤数、guiding_scale - 通常提供的不仅仅是网络编辑 --- ## 参考文件 - 按任务读取 |主题 |文件|何时阅读 | |---|---|---| |架构和数据流| `references/architectures.md` | DDPM/SDE/LDM/DiT/Flux/VAE/SDXL,管道图| |调度程序和指导| `references/samplers.md` | DDIM/Euler/Heun/DPM-Solver/PNDM、CFG、预测类型 | |培训和进修| `参考文献/training.md` |损失/目标、LoRA/DreamBooth/full FT、超参数 | |内存和分布| `引用/内存.md` | AMP、检查点、ZeRO、FSDP、量化、FP8 | |文本编码器和数据 | `references/encoders-data.md` | CLIP/Qwen/多编码器、标记化、数据管道 | |评估和故障排除 | `references/eval-debug.md` | FID/CLIPScore/LPIPS、典型故障和修复、许可证 | --- ## 快速清单“我正在构建/修改 diffusio n» - [ ] **Backbo
扩散模型的实用工程:架构、训练、推理、内存优化。用于具有扩散模型的任何任务:设计或修改架构(UNet/DiT/Flow/Flux)、调度器/采样器的选择和配置、附加训练(LoRA/DreamBooth/完全微调)、内存优化(AMP/检查点/ZeRO/FSDP/量化)、文本编码器的替换或融合(CLIP/Qwen)、使用扩散器、调试扩散管道、质量评估(FID/CLIPScore/LPIPS)、潜扩散、VAE、引导/CFG、整流流、稳定扩散、SDXL、通量。在训练生成模型、文本到图像管道、ControlNet、多编码器融合、WebDataset 时询问有关 GPU 内存的问题时也可使用。 --- # 扩散工程技能 ## 快速定位 最影响质量/速度/成本的三个工程决策是: 1. **扩散在哪里** → 像素(昂贵)或潜在空间(LDM/SD 系列 - 实用) 2. **降噪器的骨干** → UNet(经典,更简单)或 Transformer/DiT/Flow(缩放更好) 3. **采样控制** → 调度程序、步骤数、guiding_scale - 通常提供的不仅仅是编辑网络 --- ## 参考文件 - 按任务读取 |主题 |文件 |何时阅读 | |---|---|---| |架构和数据流| `references/architectures.md` | DDPM/SDE/LDM/DiT/Flux/VAE/SDXL,管道图| |调度程序和指导| `references/samplers.md` | DDIM/Euler/Heun/DPM-Solver/PNDM、CFG、预测类型 | |培训和进修| `参考文献/training.md` |损失/目标、LoRA/DreamBooth/full FT、超参数 | |内存和分布| `引用/内存.md` | AMP、检查点、ZeRO、FSDP、量化、FP8 | |文本编码器和数据 | `references/encoders-data.md` | CLIP/Qwen/多编码器、标记化、数据管道 | |评估和故障排除 | `references/eval-debug.md` | FID/CLIPScore/LPIPS、典型故障和修复、许可证 | --- ## 快速清单“我正在构建/修改 diffusio n» - [ ] **Backbo
skill-sample/ ├─ SKILL.md ⭐ 必备:技能说明入口:用途 / 安装 / 用法 / 示例 / 依赖 ├─ manifest.sample.json ⭐ 推荐:机器可读元信息:用于索引 / 校验 / 自动填表 ├─ LICENSE.sample ⭐ 推荐:授权与使用范围:开源 / 限制 / 商用说明 ├─ scripts/ │ └─ example-run.py ✅ 可运行示例脚本:让用户导入后立刻验证“能用” ├─ assets/ │ ├─ example-formatting-guide.md 🧩 输出规范:统一排版 / 结构 / 风格 │ └─ example-template.tex 🧩 模板资源:报告/文档模板,快速生成标准产物 └─ references/ 🧩 参考资料库:方法论 / 结构指南 / 最佳实践 ├─ example-ref-structure.md 🧩 结构参考:章节框架 / 目录组织 ├─ example-ref-analysis.md 🧩 分析参考:常用套路 / 指标口径 └─ example-ref-visuals.md 🧩 视觉参考:图表规范 / 可视化建议
更多 Agent Skills 规范 详见Anthropic官方文档:https://agentskills.io/home
├─ ⭐ 必备:YAML Frontmatter(必须存在,放在文件最顶部) │ ├─ ⭐ name :技能唯一名;须符合命名规则,并建议与目录名一致 │ └─ ⭐ description :技能描述;建议包含触发关键词(便于检索/匹配) │ ├─ ✅ 可选:Frontmatter 扩展字段(规范允许,但非强制) │ ├─ ✅ license :许可证标识(也可配合单独 LICENSE 文件) │ ├─ ✅ compatibility :兼容性/运行环境要求(仅在确实有限制时写) │ ├─ ✅ metadata :任意键值对(如 author/version/source_url 等) │ └─ 🧩 allowed-tools :允许工具白名单(规范标注为 experimental) │ └─ ✅ 推荐:Markdown 正文(自由格式,但建议按“渐进式披露”组织) ├─ ✅ Overview / Purpose :一句话说明目标 + 不做什么(边界) ├─ ✅ When to use :触发条件/适用场景(让模型/用户知道何时调用) ├─ ✅ Step-by-step :步骤化流程(最好 3–6 步,保证可复现) ├─ ✅ Inputs / Outputs :输入格式、输出格式、产物位置(文件/文本/JSON等) ├─ ✅ Examples :至少 1 个可复制示例(越“能跑”越好) ├─ 🧩 Files & References :引用assets/、references/、scripts/(相对路径) ├─ 🧩 Edge cases :边界情况/限制(大文件、速率限制、失败回退) ├─ 🧩 Troubleshooting :常见错误与解决(依赖缺失、路径不对、权限问题) └─ 🧩 Safety notes :涉及联网/写文件/执行命令时给出提醒(建议写)
在 GitHub 和各类社区里,技能文件分散、难检索、也难判断是否可靠。SkillWink 把开源技能集中整理成可搜索、可筛选、可直接下载使用的技能库,让你更快找到“正好能用”的那一个。并且支持在SkillWink上直接上传skills。
我们提供 AI 语义搜索 + 关键字检索,支持 版本更新与多维排序(下载/点赞/评论/更新),并为每个技能提供 SKILL.md 开放标准与来源信息。你还可以在详情页直接 评论讨论、交流用法与改进建议。
快速上手:
支持下载与导入 skills(.zip/.skill),本地放置后即可生效:
~/.claude/skills/(Claude Code)
~/.codex/skills/(Codex CLI)
~/.gemini/skills/(Gemini CLI)
同一份 SKILL.md 跨平台通用。
你需要了解的:技能是什么、怎么运行的、怎么找、怎么导入、怎么判断可信、怎么参与共建。
这里的“skills(技能)”是一种可复用的任务能力包,通常包含 SKILL.md 说明(用途、输入输出、使用方法)以及可选的脚本/模板/示例文件。
你可以把它理解为:给 AI 助手或工具链用的“插件说明书 + 资源包”,可被反复安装与分享。
技能系统采用“渐进式披露”策略,高效管理上下文信息,具体流程如下:
发现阶段:系统启动时,智能体仅加载各技能的名称与简要描述——信息精简,足以判断其适用场景,避免冗余加载。
激活阶段:当任务需求与某技能描述匹配时,智能体才将对应的完整 SKILL.md 说明文档动态载入上下文。
执行阶段:智能体严格遵循文档指引执行操作,并按需调用关联文件或运行内置代码模块。
核心优势:该设计使智能体始终保持轻量高效,同时具备“按需扩展上下文”的能力,既保障响应速度,又确保复杂任务拥有充分执行依据。
推荐 3 种方式组合使用:
注:以上导入方式文件大小控制在10M之内。
常见路径如下(不同系统略有差异,以你本机为准):
同一份 SKILL.md 通常可以跨工具复用。你在 SkillWink 导入后,也可以查看“放置指引/安装说明”。
可以。很多技能本质是标准化说明 + 资源,只要目标工具支持读取该格式,就能共享使用。
比如:检索类技能 + 写作类技能 + 自动化脚本,形成“发现 → 处理 → 输出”的工作流。
一部分skills来源于公开的 GitHub 仓库。我们会筛掉低质量仓库(至少 2 星),并扫描基本质量指标,还有一部分是SkillWink平台的创作者独立上传的。作为使用者,在安装前应始终审查代码,对安全问题负责。
最常见原因是这几类:
我们会尽量避免。你可以用 排序 + 评论 让“好用的”更靠前: