Microsoft lanza PyRIT: una herramienta de equipo rojo para IA generativa

Microsoft ha lanzado un marco de automatización de acceso abierto llamado PyRIT (abreviatura de Python Risk Identification Tool) para identificar de forma proactiva riesgos en sistemas de inteligencia artificial (IA) generativa.

La herramienta de equipo rojo está diseñada para "permitir que todas las organizaciones de todo el mundo innoven de manera responsable con los últimos avances en inteligencia artificial", dijo Ram Shankar Siva Kumar, líder del equipo rojo de IA en Microsoft .

La compañía dijo que PyRIT podría usarse para evaluar la solidez de los criterios de valoración del modelo de lenguaje grande (LLM) frente a diferentes categorías de daño, como fabricación (p. ej., alucinaciones), uso indebido (p. ej., sesgo) y contenido prohibido (p. ej., acoso).

También se puede utilizar para identificar daños a la seguridad que van desde la generación de malware hasta el jailbreak, así como daños a la privacidad como el robo de identidad.

PyRIT viene con cinco interfaces: objetivo, conjuntos de datos, motor de puntuación, la capacidad de admitir múltiples estrategias de ataque e incorpora un componente de memoria que puede tomar la forma de JSON o una base de datos para almacenar las interacciones intermedias de entrada y salida.

El motor de puntuación también ofrece dos opciones diferentes para calificar los resultados del sistema de IA objetivo, lo que permite a los miembros del equipo rojo utilizar un clasificador de aprendizaje automático clásico o aprovechar un punto final de LLM para la autoevaluación.

"El objetivo es permitir a los investigadores tener una línea de base de qué tan bien está funcionando su modelo y todo el proceso de inferencia frente a diferentes categorías de daños y poder comparar esa línea de base con futuras iteraciones de su modelo", dijo Microsoft.


"Esto les permite tener datos empíricos sobre qué tan bien está funcionando su modelo hoy y detectar cualquier degradación del rendimiento en función de futuras mejoras".

Dicho esto, el gigante tecnológico tiene cuidado de enfatizar que PyRIT no reemplaza la formación de equipos rojos manuales de sistemas de IA generativos y que complementa la experiencia en el dominio existente de un equipo rojo.

En otras palabras, la herramienta está destinada a resaltar los "puntos calientes" de riesgo generando indicaciones que podrían usarse para evaluar el sistema de IA y señalar áreas que requieren mayor investigación.

Microsoft reconoció además que el equipo rojo de sistemas de IA generativa requiere investigar simultáneamente los riesgos de seguridad y de IA responsable y que el ejercicio es más probabilístico, al tiempo que señala las amplias diferencias en las arquitecturas de los sistemas de IA generativa.

"A menudo es necesario realizar un sondeo manual, aunque lleva mucho tiempo, para identificar posibles puntos ciegos", dijo Siva Kumar. "La automatización es necesaria para el escalado, pero no reemplaza el sondeo manual".

El desarrollo se produce cuando Protect AI reveló múltiples vulnerabilidades críticas en plataformas populares de la cadena de suministro de IA, como ClearML, Hugging Face, MLflow y Triton Inference Server, que podrían resultar en la ejecución de código arbitrario y la divulgación de información confidencial.

Publicado por: Alexandra - Escritor y traductor, mediante el Marketing Digital ayudo a las organizaciones a mejorar su desempeño e innovación tecnológica.

Recuerda suscribirte:

Obtenga nuestro boletín de noticias diario | Suscríbete gratuitamente SUSCRIBIRSE
¿Te ha resultado útil este artículo, recomiendanos?
Si



Share:

Luis Chávez

Soy el fundador del sitio web Ayudadeblogger.com - Considerado un Pro Blogger profesional, Consultor SEO y desarrollador Web adicto, ejecuto una serie de sitios web desde mi Oficina Quito-Ecuador.

Related post

Comentarios

0 comments:

Publicar un comentario