ISC-Bench

Score de confiance 78/100

Benchmark et pipeline pour évaluer la sécurité des modèles (Internal Safety Collapse) via le framework TVD ; construit des prompts, exécute des modèles et extrait le contenu nuisible.

déclencheurs:isc-benchjailbreak evaluationsafety benchmarkrun tvdextract harmful contentscore responses

GitHub SKILL.md

Ce qu'il fait

ISC-Bench est un pipeline reproductible pour évaluer l'Internal Safety Collapse (ISC) dans les grands modèles de langage. Il fournit des scripts pour construire des prompts de benchmark, les exécuter sur des modèles cibles via OpenRouter, extraire le contenu nuisible des sorties du modèle et noter les résultats sur une échelle de nuisibilité de 1 à 5. Le repo supporte plusieurs benchmarks (JailbreakBench, HarmBench, AdvBench, StrongREJECT) et des modes d'agent pour l'évaluation automatisée.

Quand l'utiliser

Utilisez ISC-Bench lorsque vous devez évaluer quantitativement la sécurité d'un modèle, comparer des modèles via des benchmarks standards, mesurer les taux de jailbreak/vulnérabilité ou exécuter des expériences contrôlées (zero-shot, few-shot, ICL). Adapté aux chercheurs en sécurité, aux red-teamers et aux équipes d'ingénierie validant le comportement des modèles.

Ce qui est inclus

Scripts : exécuteurs d'expériences, scripts de pipeline build/run/extract/judge (voir dossiers experiment/).
Références : ensembles de prompts pré-construits pour différents benchmarks et exemples de fichiers de résultats.
Instructions : configuration détaillée et commandes de démarrage rapide incluant l'utilisation de uv run, le mode agent Docker et des conseils de dépannage.

Agents compatibles

Fonctionne avec les agents capables d'utiliser le CLI et les outils d'évaluation pouvant exécuter des workflows Python/Docker ; s'intègre avec les modèles accessibles via OpenRouter et les exécuteurs LLM typiques.

Étiquettes

#safety #benchmark #jailbreak #red-teaming #evaluation #llm #research #pipeline

Scripts exécutés dans un bac à sableExécution échouéeAudité le June 28, 2026

Résumé de l'audit

ISC-Bench est une compétence de benchmarking de sécurité pour évaluer la vulnérabilité des LLM à l'effondrement de la sécurité interne (Internal Safety Collapse). Le script Python est bien structuré avec une exécution concurrente et un rapport de progression, mais n'a pas pu être exécuté en raison de l'absence de la dépendance 'openai'. Le script shell nécessite un argument de répertoire de modèle. Le corps du SKILL.md était vide lors de la récupération, limitant l'évaluation complète.

Points d'attention

Nécessite la variable d'environnement OPENROUTER_API_KEY
Nécessite l'installation du package Python 'openai'
Le script shell intègre du Python en ligne via uv run

Dépendances manquantes

openai

Notes

Outil de recherche légitime sur la sécurité de l'IA. Aucune coordonnée codée en dur, aucune commande destructive, aucune exfiltration. Le script shell présente des problèmes de style mineurs avec du Python en ligne mais est fonctionnel. Public de niche — chercheurs en sécurité de l'IA et red-teamers.

Informations

Dépôt: ISC-Bench
Étoiles: 775

Score de confiance

Global78

Sécurité95

Qualité du code68

Architecture52

Utilité42

Plus de ISC-Bench

Benchmark AIML Spambot (ISC)

Modèle de benchmark pour évaluer les modèles de détection de spam à l'aide d'exemples de campagnes de spam ancrés (contient du contenu d'ancrage nocif).

Compétences similaires

Yielding Bear — Unified LLM Routing

A unified LLM routing API that automatically routes requests to the cheapest capable model across providers to reduce inference cost by ~60-80%.

Seq Wrangler

Sequence data QC, trimming, alignment, and BAM processing pipeline helper — wraps FastQC, fastp/Trimmomatic, BWA/Bowtie2/Minimap2, and SAMtools for automated re

OpenDAL Oli CLI Playbooks

Command playbooks and safe-operation patterns for the OpenDAL 'oli' CLI — listing, copying, moving, editing, and benchmarking data across local and remote profi

Markdrop

Convert PDFs to structured Markdown or interactive HTML and generate AI-powered descriptions for images and tables using multiple LLM providers.

arxiv2md

Convert arXiv papers into clean, LLM-ready Markdown via a REST API or CLI for fast reading, summarization, and downstream processing.

Retriever (Membrane) Integration

Integrate with Retriever via the Membrane CLI to search, query, and proxy Retriever data (documents, snippets, queries) with built-in auth and pagination.

Scite Database (Smart Citations)

Query Scite.ai Smart Citations by DOI to report supporting, contrasting, and mentioning citation counts and help assess a paper's reliability.

Writing Implementation Plans

Generate detailed, engineer-ready implementation plans from design docs: file paths, step-by-step tasks, tests, and verification instructions.

Retour aux compétences