La cadena de suministro de la IA no es impermeable
La IA fue la noticia principal de 2023, ChatGPT se convirtió en el artículo más visto de Wikipedia en 2023 - y ha sido implementado en fases de prueba o producción por numerosas organizaciones de todo el mundo. El hecho de que estas organizaciones ya se hayan dado cuenta de los beneficios de la IA o aún estén explorando su potencial es irrelevante para su rápido ascenso en un periodo relativamente corto.
Sin embargo, con el auge de la IA, y de los grandes modelos lingüísticos en particular, surgieron problemas de seguridad. A través de interfaces web directas o llamadas a API, se identificaron varios vectores de ataque que podían poner en peligro los modelos lingüísticos, los datos de entrenamiento o los datos de los usuarios. Los riesgos se amplificaron cuando la IA se integró en aplicaciones de terceros.
A medida que nos acercamos a 2023, los investigadores de seguridad descubrieron otra vulnerabilidad potencial en las plataformas de IA: la explotación de tokens de la API Hugging Face expuestos públicamente. Este problema recuerda a los cubos públicos no seguros de Amazon de antaño (¡tan 2022!). Se descubrió que muchas organizaciones importantes, incluidas Meta y otras empresas de IA, habían codificado estos tokens en repositorios de código de acceso público o los habían publicado en varios sitios web. El análisis reveló que estos tokens proporcionaban lecturay, lo que es más importante acceso de escritura a los datos subyacentesincluidos los conjuntos de datos utilizados para entrenar modelos de IA. La manipulación de estos datos podría dar lugar a la inserción de contenido falso, engañoso o malicioso en el conjunto de entrenamiento, afectando posteriormente a las aplicaciones y portales orientados al usuario. Además, es fundamental reconocer la importancia de los datos de entrenamiento para las empresas de IA; el abuso de estos tokens podría provocar su pérdida o corrupción de formas difíciles de detectar.
Hugging Face ha reconocido el problema con los tokens expuestos, los ha invalidado y está trabajando en la implementación de mecanismos de control más refinados para el uso de tokens en el futuro.
Esta situación guarda similitudes con otros ataques a la cadena de suministro en los que se exponen credenciales públicas en repositorios de código, lo que ha dado lugar a iniciativas como la función Secret Scanning de Github. Subraya un principio fundamental: el mal manejo de los secretos, como la publicación de credenciales, invita al escrutinio y al uso indebido. Sin embargo, este descuido persiste.
Por lo tanto, es esencial tratar los tokens de acceso como cualquier otra credencial sensible: mantenerlos privados y seguros. Para los procesos CI/CD, considera el uso de variables de entorno u otros métodos seguros que no impliquen la codificación de secretos en el código del proyecto. Como mínimo, asegúrate de que estos archivos se añaden a la lista de ignorados de Git.
Por último, para proteger sus proyectos Java de paquetes potencialmente comprometidos, confíe siempre en fuentes fiables y verificadas como SecureChain para Java para ayudarle a proteger sus aplicaciones.