L’audio généré par l’IA peut être un gros problème. Meta a une idée pour le détecter : un filigrane

Imaginez ce qui suit : votre téléphone sonne et la voix de votre fils, de votre mère ou de quelqu’un que vous connaissez vous dit qu’il a des ennuis et qu’il a besoin que vous envoyiez X somme d’argent sur un certain compte. S’il s’agissait d’une voix synthétique “type Loquendo”, cela ne fonctionnerait probablement pas, mais une voix clonée très fidèle peut vous mettre, à tout le moins, en situation. Comment résoudre ce problème? Comment détecter qu’un audio a été généré par l’intelligence artificielle ?

Avec un filigrane. C’est l’approche de Meta et sa nouvelle proposition appelée AudioSeal (PDF). Ce système de détection est constitué de deux réseaux de neurones, l’un qui ajoute une sorte de marques invisibles indétectables par l’oreille humaine ; et une seconde qui détecte ces signaux. C’est-à-dire un générateur et un détecteur. La clé d’AudioSeal est qu’il fonctionne même sur les audios longs ou ceux qui ont été édités.

Mais… ça existe déjà. Oui, mais la méthode actuelle, WavMark, présente quelques failles. Ce système ajoute la « marque invisible » à intervalles d’une seconde, ce qui signifie qu’il ne fonctionne pas sur des fichiers audio plus courts et qu’il est plus vulnérable au montage. De plus, la détection est assez lente, ce qui signifie qu’elle ne peut pas se faire en temps réel. Pensons à un audio d’une heure. Il dure 3 600 secondes et vous devez l’analyser par sections d’une seconde à la fois pour trouver le filigrane.

L’approche AudioSeal. Comme nous l’avons indiqué précédemment, AudioSeal fonctionne via deux réseaux de neurones. Le premier est un générateur qui insère le filigrane sous forme de signal dans chaque section de l’audio de manière aléatoire. Le second est un détecteur qui détermine la probabilité qu’il y ait un filigrane dans chaque échantillon de l’audio d’entrée. Pour éviter de devenir trop technique, restons fidèles à l’idée qu’AudioSeal vous permet de détecter des fragments d’audio synthétique dans des audios plus longs, même s’ils sont édités. Comme expliqué par Meta :

« Contrairement aux méthodes traditionnelles, qui reposent sur des algorithmes de décodage complexes, l’approche de détection localisée d’AudioSeal permet une détection plus rapide et plus efficace. Cette conception améliore la vitesse de détection jusqu’à 485 fois par rapport aux méthodes précédentes, ce qui la rend adaptée aux applications réelles à grande échelle. applications temporelles.”

Gratuit, et un mais. AudioSeal est disponible sur GitHub avec une licence commerciale afin que toute personne ou institution puisse l’implémenter sur ses systèmes. Le problème est précisément cela. Il est inutile d’avoir un filigrane très puissant comme celui-ci s’il n’est pas implémenté dans les systèmes de génération audio synthétique.

D’un autre côté, les expériences de Meta suggèrent que plus on en apprend sur l’algorithme de détection, plus le système devient vulnérable. Autrement dit, si un attaquant dispose de nombreuses informations sur le fonctionnement du système, il pourra peut-être éviter d’être détecté.

Images | Pixels

À Xataka | La nouvelle société d’Ilya Sutskever a un objectif clair : créer une superintelligence avec une sécurité « nucléaire »

Related posts