Atacando un sistema de reconocimiento de voz. dolphinattack

DE LA SERNA LÓPEZ, Javier (2021) Trabajo de Fin de Máster (TFM)

En la actualidad, los sistemas de reconocimiento de voz como Siri o Alexa se han convertido en poco tiempo en complementos esenciales para la sociedad. Estos sistemas posibilitan que el ser humano pueda interactuar verbalmente con un dispositivo, permitiéndole acceder a todas las capacidades que este le pueda ofrecer. Dentro de estas posibilidades, se encuentran desde simples comandos que ayuden a realizar una compra o activar una lista de reproducción, hasta la simplificación de otras acciones que eviten la pérdida de atención, como en el caso de un usuario al volante de un vehículo. Este Trabajo Fin de Máster (en lo sucesivo, TFM) tiene por objetivo mostrar las vulnerabilidades que presentan los sistemas de reconocimiento de voz, cómo pueden ser víctimas de diferentes ataques en los que, sin que el usuario lo perciba, puedan recibir comandos de voz que lleven al sistema a realizar acciones no deseadas. Para alcanzar dicho objetivo, el TFM se centra en el estudio del DolphinAttack, que consiste en la modulación en amplitud de comandos de voz a frecuencias de ultrasonidos (f >20 kHz) para hacerlos inaudibles al ser humano. Además, se aprovechará el comportamiento no lineal de los circuitos del micrófono de tal forma que los comandos de voz modulados a baja frecuencia puedan ser demodulados, recuperados e interpretados por los sistemas de reconocimiento de voz objetivo. En este trabajo se propone también un nuevo modelo de ataque basado en el DolphinAttack con el que se pretende aumentar las posibilidades de éxito, se mostrarán las implicaciones y se plantearán soluciones a los mismos.
At present, speech recognition systems such as Siri or Alexa have quickly become essential accessories for society. These systems allow human beings to interact verbally with a device, allowing them to access all the possibilities that it can offer. These possibilities range from simple commands that help to make a purchase or activate a playlist, to the simplification of other actions that prevent loss of attention, such as when a user is at the wheel of a vehicle. This Master’s Thesis aims to the vulnerabilities that speech recognition systems present, how they can be victims of different attacks in which, without the user noticing, they could receive voice commands that led the system to perform actions not desired. The Master’s Thesis focuses on the study of the DolphinAttack, this attack consists of the modulation of voice commands in an ultrasound carrier (f> 20 kHz) to make it inaudible to the human being. The non-linear behaviour of the microphone circuits will be exploited in such a way that the low frequency modulated voice commands can be demodulated, retrieved, and interpreted by the voice recognition systems. This work also proposes an attack based on the DolphinAttack with which the chances of success are increased, the implications will be n and solutions to them will be proposed.
  • Tipo de documento: Trabajo de Fin de Máster (TFM)
  • Directores: Manuel B. Gómez Argandoña
  • Tipo de autorizacion: Acceso abierto
  • Título obtenido:
  • Derechos: CC Atribución-NoComercial-SinDerivadas 3.0 España