Expertise de document numériques: Une méthode pour détecter les traces de manipulations sur les documents PDF

Le format PDF, créé en 1990, est devenu rapidement un format de choix dans la plupart des métiers où il y a utilisation de document numérique. Avec l’essor de la technologie numérique, le format PDF devient également une cible intéressante pour la falsification. L'analyse de documents numériques, qui exige des connaissances à la fois en analyse de documents et en traces numériques, est devenue une tâche courante des forensiciens. Cependant, la littérature sur le sujet est rare. Les objectifs de ce travail de recherche sont d’observer les métadonnées pour déterminer diverses altérations qui peuvent être détectées et d’aider les experts en créant une méthodologie pour leur travail de tous les jours.

Nous avons utilisé quatre logiciels différents permettant l’interaction avec les métadonnées du fichier PDF. Adobe Acrobat Pro a été utilisé pour l’édition des PDF et la visualisation des métadonnées, ExifToolGUI pour observer le flux de métadonnées, Xpdf pour l’extraction du contenu et iText RUBS pour visionner le code source du document PDF. Afin d’arriver à nos objectifs, nous avons créé plusieurs fichiers PDF (22) avec des altérations qui étaient connues. Ces modifications étaient effectuées sur le texte, les images, les signatures et les documents numérisés. Ensuite, nous avons observé les différences entre un fichier de référence et les fichiers altérés pour déterminer les anomalies dans les métadonnées et pour connaître quelles altérations sont visibles ou non visibles. Enfin, à partir des données récoltées, nous avons créé une méthode d’investigation simplifiant l’analyse numérique des documents PDF.

image numérique 2

Dans l'objectif de développer cette méthode, nous avons recueilli des données sur un total de 22 documents PDF. Ces données comprenaient, entres autres, le logiciel de création et producteur du fichier, la date de modification et de création, les polices, la langue, le document et instance ID ainsi que le contenu texte ou image dans certain cas. Les métadonnées obtenues lors de la collecte des données ont ensuite été comparées dans différents tableaux afin d'observer la présence de schémas répétitifs sur l'influence des modifications sur les métadonnées. Après avoir identifié, créé et comparé les nombreux PDF préparés, nous avons pu créer une méthode d'analyse qui se décompose en quatre étapes visant à permettre une décision concernant l'intégrité d'un fichier PDF.

La première étape consiste à créer une copie du document PDF original afin d’éviter de briser l’intégrité du document. Ensuite, la deuxième étape consiste à effectuer un contrôle visuel similaire à celui utilisé pour les documents papier. De cette façon, on peut repérer les anomalies présentes sur le document. Ensuite, l'approche analytique des métadonnées doit se faire en progressant du général au spécifique. En commençant l'analyse par une vérification des métadonnées génériques contenues dans un PDF, on peut rapidement extraire des informations essentielles à une enquête. Ces métadonnées sont extraites du dictionnaire d'information et du flux de métadonnées. Dans le cadre d'une enquête, nous nous concentrerons sur l'auteur, le logiciel de création, le producteur, la date de création et de modification, le XMP Toolkit ainsi que le document et l’instance ID. Lors de la dernière étape d’investigation des PDF, nous nous sommes attardés à l’analyse numérique du PDF afin d’identifier le ou les éléments du document PDF qui ont été modifiés, et ce, en observant directement le code source sous la forme arborescente. Lors de cette étude, cette méthode a été confrontée à deux PDFs ayant subi diverses altérations inconnues des auteurs. Dans l’ensemble, cette méthode s'est avérée efficace

Les résultats obtenus indiquent que la méthode est efficace afin d’identifier un PDF modifié. Dans certains cas, il est difficile de retrouver les éléments ayant subi la modification.


Par Thomas Lessard et Bruno Boisvert (avril 2022)





S'inscrire pour recevoir les nouvelles du LAB404 et les synthèses de recherche

* requis

Énoncé de confidentialité