
de ISC-Bench775
Benchmark et pipeline pour évaluer la sécurité des modèles (Internal Safety Collapse) via le framework TVD ; construit des prompts, exécute des modèles et extrait le contenu nuisible.
ISC-Bench est un pipeline reproductible pour évaluer l'Internal Safety Collapse (ISC) dans les grands modèles de langage. Il fournit des scripts pour construire des prompts de benchmark, les exécuter sur des modèles cibles via OpenRouter, extraire le contenu nuisible des sorties du modèle et noter les résultats sur une échelle de nuisibilité de 1 à 5. Le repo supporte plusieurs benchmarks (JailbreakBench, HarmBench, AdvBench, StrongREJECT) et des modes d'agent pour l'évaluation automatisée.
Utilisez ISC-Bench lorsque vous devez évaluer quantitativement la sécurité d'un modèle, comparer des modèles via des benchmarks standards, mesurer les taux de jailbreak/vulnérabilité ou exécuter des expériences contrôlées (zero-shot, few-shot, ICL). Adapté aux chercheurs en sécurité, aux red-teamers et aux équipes d'ingénierie validant le comportement des modèles.
experiment/).uv run, le mode agent Docker et des conseils de dépannage.Fonctionne avec les agents capables d'utiliser le CLI et les outils d'évaluation pouvant exécuter des workflows Python/Docker ; s'intègre avec les modèles accessibles via OpenRouter et les exécuteurs LLM typiques.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.