Autor del artículo: Varios autores
Fuente: Arxiv
Tipo: Noticia
Fecha de publicación: 28/11/2023
– Los modelos de lenguaje pueden filtrar datos de entrenamiento privados.
– Los modelos avanzados son más propensos a las filtraciones de datos.
– Extraer datos implica utilizar.
Este artículo estudia la memorización extraíble: datos de entrenamiento que un adversario puede extraer eficientemente consultando un modelo de aprendizaje automático sin conocimiento previo del conjunto de datos de entrenamiento. Demostramos que un adversario puede extraer gigabytes de datos de entrenamiento de modelos lingüísticos de código abierto como Pythia o GPT-Neo, modelos semiabiertos como LLaMA o Falcon, y modelos cerrados como ChatGPT. Las técnicas existentes en la literatura bastan para atacar modelos no alineados; para atacar el ChatGPT alineado, desarrollamos un nuevo ataque de divergencia que hace que el modelo se desvíe de sus generaciones de estilo chatbot y emita datos de entrenamiento a un ritmo 150 veces mayor que cuando se comporta correctamente. Nuestros métodos demuestran que los ataques prácticos pueden recuperar muchos más datos de lo que se pensaba, y revelan que las técnicas de alineación actuales no eliminan la memorización.
Para comentar se requiere una cuenta.
Ingrese a Open Athens UEEs necesario iniciar sesión para interactuar con este comentario. Por favor inicie sesión e intente de nuevo