
de ISC-Bench775
Benchmark et pipeline pour évaluer la sécurité des modèles (Internal Safety Collapse) via le framework TVD ; construit des prompts, exécute des modèles et extrait le contenu nuisible.
ISC-Bench est un pipeline reproductible pour évaluer l'Internal Safety Collapse (ISC) dans les grands modèles de langage. Il fournit des scripts pour construire des prompts de benchmark, les exécuter sur des modèles cibles via OpenRouter, extraire le contenu nuisible des sorties du modèle et noter les résultats sur une échelle de nuisibilité de 1 à 5. Le repo supporte plusieurs benchmarks (JailbreakBench, HarmBench, AdvBench, StrongREJECT) et des modes d'agent pour l'évaluation automatisée.
Utilisez ISC-Bench lorsque vous devez évaluer quantitativement la sécurité d'un modèle, comparer des modèles via des benchmarks standards, mesurer les taux de jailbreak/vulnérabilité ou exécuter des expériences contrôlées (zero-shot, few-shot, ICL). Adapté aux chercheurs en sécurité, aux red-teamers et aux équipes d'ingénierie validant le comportement des modèles.
experiment/).uv run, le mode agent Docker et des conseils de dépannage.Fonctionne avec les agents capables d'utiliser le CLI et les outils d'évaluation pouvant exécuter des workflows Python/Docker ; s'intègre avec les modèles accessibles via OpenRouter et les exécuteurs LLM typiques.
ISC-Bench est une compétence de benchmarking de sécurité pour évaluer la vulnérabilité des LLM à l'effondrement de la sécurité interne (Internal Safety Collapse). Le script Python est bien structuré avec une exécution concurrente et un rapport de progression, mais n'a pas pu être exécuté en raison de l'absence de la dépendance 'openai'. Le script shell nécessite un argument de répertoire de modèle. Le corps du SKILL.md était vide lors de la récupération, limitant l'évaluation complète.
openaiOutil de recherche légitime sur la sécurité de l'IA. Aucune coordonnée codée en dur, aucune commande destructive, aucune exfiltration. Le script shell présente des problèmes de style mineurs avec du Python en ligne mais est fonctionnel. Public de niche — chercheurs en sécurité de l'IA et red-teamers.