L’attribution de paternité des documents audio d’auteurs inconnus

La quantité de données numériques en contexte policier, que ce soit pour les enquêtes ou pour le renseignement, est en continuelle expansion. Une des difficultés rencontrées à cet égard porte sur l’attribution de la paternité d’un texte dont l’auteur est inconnu à un individu suspecté d’en être l’auteur. Ce type de démarche peut entre autres être réalisée par la comparaison d’un corpus de texte écrit par l’individu en question et le texte questionné. Le milieu de la recherche s’est beaucoup intéressé à ces concepts d’associations à travers la comparaison de caractéristiques syntaxiques et d’expression ou de mots utilisés par un individu. Cependant, l’évolution des nouvelles technologies de communication fait en sorte qu’une quantité grandissante d’enregistrements audio doivent faire l’objet du même exercice, mais peu de technologies sont offertes pour identifier un individu à partir de tels types de fichiers.

image numérique 2

Dans l’objectif de contribuer au développement de techniques d’attribution de paternité de documents audio, Magalhães et Magalhães (2019) proposent l’évaluation d’une méthode utilisant l’outil TExtractor, constitué d’un agencement de différentes ressources pour arriver à ces fins. TExtractor propose une démarche en six étapes principales :

    1. Transcription du fichier audio en fichier texte.
    2. Traduction du fichier texte et stockage dans une première base de données.
    3. Extraction de corpus de textes provenant d’individus d’intérêt extrait de sources ouvertes.
    4. Traduction, si nécessaire, du corpus de texte extrait.
    5. Stockage des données dans une deuxième base de données.
    6. Comparaison systématique entre la première base de données et de la deuxième, selon la présence de mots et d’expressions utilisées par les auteurs. La précision des analyses est exprimée selon un taux de similitude.

Aux fins d’évaluation, l’étude utilise différents types de fichiers : musique, livre audio et discours. Différentes langues sont également étudiées afin d’évaluer l’impact de la traduction, soit l’anglais, l’espagnol et le portugais. L’impact du débit de parole est également étudié, mais les auteurs ne mentionnent que les résultats obtenus pour un débit modéré. Leurs résultats montrent que les fichiers de musique sont particulièrement problématiques, notamment en raison des bruits de fond qui limitent de manière importante la qualité de la transcription. Comme la traduction pose également un défi supplémentaire, c’est avec l’anglais que les taux de similitudes sont les plus élevés, variant entre 60% et 70% dans le meilleur des cas.

Bien que la précision de la méthode proposée soit relativement faible et que beaucoup de travail reste à être réalisé pour implanter ce type d’outil dans le milieu de l’enquête, elle peut s’avérer plus intéressante pour le renseignement. En effet, l’analyse automatisée de quantités de documents audio demeure une problématique des plus actuelles et ce type de démarche peut tout de même offrir la possibilité de découvrir des relations qui n’auraient pas pu être repérées par un travail manuel. Également, considérant la vitesse à laquelle les techniques d’intelligence artificielle évoluent, les limites engendrées par la traduction ou la transcription automatisée risquent fort bien de s’estomper dans un futur rapproché, ce qui permettra l’obtention de résultats nettement supérieurs.


Par Pier-Louis Dumont (novembre 2022)


Magalhães, A. & Magalhães, J.P. (2019). TExtractor: An OSINT Tool to Extract and Analyse Audio/Video Content. Dans Machado, J., Soares, F., Veiga, G. (eds) Innovation, Engineering and Entrepreneurship. HELIX 2018. Lecture Notes in Electrical Engineering, vol 505. Springer, Cham.





S'inscrire pour recevoir les nouvelles du LAB404 et les synthèses de recherche

* requis

Énoncé de confidentialité