Optimisation vLLM Qwen3 Coder

Name: Optimisation vLLM Qwen3 Coder
Rating: 54 (1 reviews)
Author: bbuf

Score de confiance 54/100

Guide manuel basé sur des PR pour l'audit, le débogage et l'extension du parseur d'outils Qwen3 Coder dans vLLM — se concentre sur les cas limites de schéma, les régressions du parseur et v

déclencheurs:qwen3vllmtool parseranyOfschema validationResponses APIcoder tool

GitHub SKILL.md

Ce que cela fait

Cette compétence fournit un dossier d'optimisation précis et basé sur des preuves pour le parseur d'outils Qwen3 Coder dans le runtime vLLM. Elle documente les PR validées, les surfaces du runtime et un plan de validation afin qu'un agent (par exemple, Codex ou un assistant axé sur le code) puisse auditer, diagnostiquer et corriger les régressions liées aux cas limites de JSON-schema (anyOf/oneOf), aux paramètres nullables et aux appels d'outils de l'API Responses. Le contenu est construit à partir de diffs et de notes de PR pour garantir que les recommandations sont traçables.

Quand l'utiliser

Utilisez cette compétence lorsqu'un agent doit : reproduire ou enquêter sur une régression dans le parsing des outils Qwen3 de vLLM ; créer ou examiner des PR modifiant le comportement du parseur d'outils ; valider l'intégrité des appels d'outils sous décodage streaming/spéculatif ; ou préparer des pistes de test exerçant des combinaisons de schémas complexes. Elle est destinée aux flux de revue d'ingénierie, d'automatisation QA et de triage de PR.

Ce qui est inclus

Scripts : aucun fourni, mais le dépôt inclut un répertoire references/ avec l'historique des PR et des notes de validation.
Références : oui — notes de PR canoniques et miroirs d'historique (references/pr-history.md, model-pr-optimization-history/...).
Instructions : une liste de contrôle procédurale pour relancer les recherches de PR, vérifier le commit mainline et exécuter des pistes de validation axées sur l'extraction de schéma et l'exécution d'outils de l'API Responses.

Agents compatibles

Le mieux adapté aux agents capables de coder (famille Codex, assistants GPT-code, Claude Code) et à tout flux de travail capable de lire des diffs de PR et d'exécuter des pistes de test de validation.

Étiquettes

#model-optimization #vllm #tool-parsing #qwen3 #code-tools #schema-validation #pr-audit #regression-testing

Aucun script exécutéAudité le May 25, 2026

Résumé de l'audit

La compétence fait référence à un chemin GitHub (skills/model-optimization/vllm/vllm-qwen3-coder-optimization/SKILL.md) qui n'existe pas dans le dépôt — le contenu est inaccessible. Aucun script n'a été joint. Sur la base des seules métadonnées, elle cible le débogage du parseur d'outils vLLM Qwen3 Coder et l'audit de PR, un cas d'utilisation niche mais réel. La compétence semble avoir été supprimée du dépôt source ou n'a jamais été correctement créée au chemin enregistré.

Points d'attention

Corps du SKILL.md non trouvé au chemin GitHub enregistré — la compétence a peut-être été supprimée ou le chemin est incorrect
Aucun script à tester

Notes

Le chemin source skills/model-optimization/vllm/vllm-qwen3-coder-optimization n'existe pas dans le dépôt BBuf/AI-Infra-Auto-Driven-SKILLS. Le dépôt contient du contenu lié à vLLM sous model-pr-optimization-history/ mais aucune compétence au chemin enregistré. Scores de qualité/architecture faibles en raison de l'absence de contenu. Le score de sécurité reste modéré-élevé car aucun contenu malveillant n'a été trouvé, mais il n'y a pas non plus de contenu à auditer en profondeur.

Informations

Dépôt: ai-infra-auto-driven-skills
Étoiles: 699

Score de confiance

Global54

Sécurité85

Qualité du code25

Architecture20

Utilité35

Plus de ai-infra-auto-driven-skills

Optimisation vLLM Qwen3.6

Guide et étapes de validation basées sur des PR pour optimiser et documenter le support de Qwen3.6 dans vLLM ; à utiliser lors d'audits ou de l'implémentation de modifications spécifiques au modèle.

Analyse de Pipeline LLM

Analyse les traces du torch profiler pour les LLM afin d'identifier les goulots d'étranglement au niveau des couches, les flux de kernels et les écarts de timing dans les passes forward.

Compétences similaires

LLM Evaluation

Evaluation framework and tools for systematically measuring LLM performance using automated metrics, human judgment, and A/B testing.

vLLM-Omni Video Generation

Generate videos (text→video, image→video, text+image→video) using vLLM-Omni and Wan2.2-style diffusion models, with guidance on parameters and performance trade

TDD (Test-Driven Development) Skill

Guides an agent through a strict red–green–refactor TDD cycle: write a failing test, implement the minimal change, and refactor with verification.

Hugging Face Evaluation Manager

Extract, import, and add structured model evaluation results to Hugging Face model cards; run or import benchmark evaluations and generate model-index YAML for

Drizzle ORM Knowledge Patch

Add knowledge about Drizzle ORM changes (v1.0.0-beta.x) — validator import consolidation, Effect Schema support, node-sqlite driver, and .comment() query taggin

vLLM Qwen3.6 Optimization

Guidance and PR-driven validation steps for optimizing and documenting Qwen3.6 support in vLLM; use when auditing or implementing model-specific changes.

Bug Fix — Stop-the-Line Protocol

Structured bug-fix workflow and triage protocol: reproduce, localize, reduce, fix, add regression test, and verify before resuming development.

Bug Fix

A disciplined, test-first workflow for reproducing, triaging, and fixing software bugs while preventing regressions.

Retour aux compétences