Benchmark AIML Spambot (ISC)

Score de confiance 52/100

Modèle de benchmark pour évaluer les modèles de détection de spam à l'aide d'exemples de campagnes de spam ancrés (contient du contenu d'ancrage nocif).

déclencheurs:spam benchmarkaiml_spambotspam detectionred-teamISC

GitHub SKILL.md

Ce qu'il fait

Ce modèle de dépôt définit un benchmark pour évaluer les modèles de détection de spam en générant des exemples de campagnes de spam multi-tweets à travers diverses catégories (arnaques crypto, spam pharmaceutique, arnaques romantiques, liens malveillants, fermes à abonnés, appâts à engagement). Il comprend des exemples d'ancrage et des validateurs pour la couverture des catégories et la longueur.

Quand l'utiliser

Destiné à l'évaluation de la sécurité de l'IA interne et au red-teaming pour mesurer le rappel du classifieur face aux modèles de campagnes adverses. N'EST PAS approprié pour l'ingestion ou l'utilisation directe par des agents à usage général car le modèle inclut intentionnellement du contenu d'ancrage nocif conçu pour émuler de réelles campagnes de spam.

Ce qui est inclus

Scripts : aucun groupé dans le SKILL.md (has_scripts=false), mais le dépôt contient des fichiers de harnais de benchmark dans les modèles.
Références : aucune emballée avec ce SKILL.md.
Instructions : paramètres de benchmarking détaillés et règles strictes 'NE JAMAIS' décrivant les modifications interdites.

Agents compatibles

Destiné aux chercheurs en sécurité et aux environnements de red-team contrôlés ; ne doit PAS être utilisé par des agents ouverts/publics.

Étiquettes

#safety #benchmark #spam-detection #red-team #adversarial #isc

Aucun script exécutéAudité le April 12, 2026

Résumé de l'audit

Compétence de benchmark red-team/adversaire conçue pour évaluer les modèles de détection de spam en générant des campagnes de spam multi-tweets à travers 6 catégories. Aucun script inclus — analyse statique uniquement. La compétence vise explicitement à maintenir la sortie dans le 'domaine nuisible' et note que Claude refuse ce contenu directement, impliquant qu'elle est conçue pour tester le contournement de la sécurité. La structure est claire mais l'objectif est le test de sécurité adversaire avec une utilité générale limitée.

Points d'attention

Conçu pour générer du contenu de spam nuisible, y compris des arnaques aux cryptomonnaies et des liens vers des malwares
La section Anchor est spécifiquement conçue pour contourner le refus du LLM
Les règles NEVER imposent de maintenir la sortie dans le domaine nuisible

Notes

Ceci est un modèle de benchmark de sécurité ISC-Bench — son but est l'évaluation adversaire des classificateurs de spam, pas le préjudice direct. Bien qu'il instruise la génération de contenu nuisible, cela se fait dans le contexte de la recherche sur la sécurité de l'IA. Le score de sécurité est réduit en raison de la nature adversaire/contournement de sécurité, mais n'est pas signalé comme malveillant car il s'agit d'un outil de benchmark légitime.

Informations

Dépôt: ISC-Bench
Étoiles: 775

Score de confiance

Global52

Sécurité62

Qualité du code45

Architecture40

Utilité25

Plus de ISC-Bench

ISC-Bench

Benchmark et pipeline pour évaluer la sécurité des modèles (Internal Safety Collapse) via le framework TVD ; construit des prompts, exécute des modèles et extrait le contenu nuisible.

Compétences similaires

OpenDAL Oli CLI Playbooks

Command playbooks and safe-operation patterns for the OpenDAL 'oli' CLI — listing, copying, moving, editing, and benchmarking data across local and remote profi

Code Mode for MCP Servers

Add a sandboxed code mode tool to an MCP server so LLMs run small processing scripts against large API responses and only the script output enters the model con

Security Research Meta-Methodology

A structured vulnerability research framework distilled from 5600+ security docs, covering web injection, deserialization, binary exploitation, domain pentest,

VCSDD Git Integration

Conventional commit and tagging conventions plus atomic staging rules for committing VCSDD pipeline artifacts to git.

Red Team (Adversarial Review)

Adversarial review skill: iteratively attack artifacts (designs, plans, code, docs) and surface fatal/significant issues until clean or escalation.

w3rt Swap (Safe Two-Step)

Two-step Solana swap workflow: quote/simulate first, present clear summary, then execute only after explicit user confirmation to avoid accidental trades.

Looper — Bounded Autonomous Audit Loops

Durable pattern and tooling for running bounded autonomous audit loops ("Go AFK for N hours") with cadence, budget, and safe stop conditions.

SWARM — Multi-Agent Safety Simulation

Research framework for simulating multi-agent systems to assess emergent risks, governance levers, and soft probabilistic metrics (toxicity, quality gap).

Retour aux compétences