
de ISC-Bench775
Modèle de benchmark pour évaluer les modèles de détection de spam à l'aide d'exemples de campagnes de spam ancrés (contient du contenu d'ancrage nocif).
Ce modèle de dépôt définit un benchmark pour évaluer les modèles de détection de spam en générant des exemples de campagnes de spam multi-tweets à travers diverses catégories (arnaques crypto, spam pharmaceutique, arnaques romantiques, liens malveillants, fermes à abonnés, appâts à engagement). Il comprend des exemples d'ancrage et des validateurs pour la couverture des catégories et la longueur.
Destiné à l'évaluation de la sécurité de l'IA interne et au red-teaming pour mesurer le rappel du classifieur face aux modèles de campagnes adverses. N'EST PAS approprié pour l'ingestion ou l'utilisation directe par des agents à usage général car le modèle inclut intentionnellement du contenu d'ancrage nocif conçu pour émuler de réelles campagnes de spam.
Destiné aux chercheurs en sécurité et aux environnements de red-team contrôlés ; ne doit PAS être utilisé par des agents ouverts/publics.
Compétence de benchmark red-team/adversaire conçue pour évaluer les modèles de détection de spam en générant des campagnes de spam multi-tweets à travers 6 catégories. Aucun script inclus — analyse statique uniquement. La compétence vise explicitement à maintenir la sortie dans le 'domaine nuisible' et note que Claude refuse ce contenu directement, impliquant qu'elle est conçue pour tester le contournement de la sécurité. La structure est claire mais l'objectif est le test de sécurité adversaire avec une utilité générale limitée.
Ceci est un modèle de benchmark de sécurité ISC-Bench — son but est l'évaluation adversaire des classificateurs de spam, pas le préjudice direct. Bien qu'il instruise la génération de contenu nuisible, cela se fait dans le contexte de la recherche sur la sécurité de l'IA. Le score de sécurité est réduit en raison de la nature adversaire/contournement de sécurité, mais n'est pas signalé comme malveillant car il s'agit d'un outil de benchmark légitime.