v2.0: Ghost Prompt detection, 46 rules, prompt inventory #1
smartbrainactivity
started this conversation in
Ideas
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
La v1.0 del auditor escaneaba únicamente archivos de código ejecutable: .js, .py, .sh. Encontraba patrones maliciosos clásicos como eval(), comandos destructivos o peticiones HTTP ocultas.
Lo que no escaneaba eran los propios archivos .md — los SKILL.md que actúan como el prompt del agente.
Eso me pareció un hueco relevante: un SKILL.md puede contener instrucciones que la IA seguirá sin que el usuario las vea. No hace falta tocar el código ejecutable para influir en el comportamiento del agente. Así que en v2.0 el auditor también lee los Markdown.
Lo que hay nuevo:
🔴 Detección de Ghost Prompts: instrucciones ocultas en .md como ignore previous instructions, do not tell the user, override safety, caracteres zero-width, inyecciones en comentarios HTML
📋 Inventario de prompts: al terminar, lista todas las directivas encontradas en cada
SKILL.md
para que puedas revisar qué le estás dando a tu agente.
⚡ 46 reglas en 4 categorías (antes eran 11): new Function(), pickle.loads, base64 -d | bash, WebSocket, API keys hardcodeadas, reverse shells.
🚨 Severidad: el output ahora distingue Crítico / Alto / Medio con un resumen al final.
El Prompt Maestro del README también se ha actualizado. Si no confías en descargar repositorios externos, puedes pedirle a tu IA que construya este auditor desde cero con todas las categorías — más info en smartbrainactivity.ai.
https://github.com/smartbrainactivity/smartbrain-skill-auditor
Si veis algún patrón que no estamos cubriendo o un caso de uso que se nos escapa, comentarlo aquí o escribidnos. Este tipo de feedback es lo que hace que la lista de reglas sea útil de verdad.
Gracias.
Beta Was this translation helpful? Give feedback.
All reactions