YOAT Lab
21 · Module 6 — Data et Bureautique

PDF avec Claude

Extraire, comprendre, comparer des PDF reçus.
Sans doute l'usage à plus fort retour sur investissement.

8 minutesSkill pdf · OCRSynthèse · Extraction · Comparaison
§01 · Le format roi

PDF — partout en réception, opaque à exploiter

Le PDF est le format dans lequel vous recevez 80 % des documents externes : CV de candidats, dossiers clients, rapports d'audit, factures fournisseurs, conventions signées, articles scientifiques. C'est aussi le format le plus pénible à exploiter : pas d'édition simple, structure souvent perdue, parfois scannés et non textuels. Claude excelle sur ce terrain.

Pourquoi c'est crucial en cabinet

Un cabinet qui traite 50 dossiers par mois reçoit potentiellement 500 PDF. La capacité à les lire, synthétiser et extraire automatiquement représente plusieurs jours de travail économisés chaque mois. C'est sans doute l'usage à plus fort retour sur investissement de toute la formation.

§02 · La Skill pdf

Ce que Claude sait faire

Texte natif

Lecture immédiate

Texte, structure, titres, listes, tableaux simples des PDF générés depuis Word, navigateur, outils de génération.

OCR

Reconnaissance des scans

Les PDF scannés (images de pages) sont reconnus et le texte est extrait. Fiable sur des scans propres, plus aléatoire sur scans de mauvaise qualité ou écriture manuscrite.

Tableaux

Extraction structurée

Les tableaux contenus dans un PDF peuvent être restitués en Markdown, CSV ou Excel. Très utile pour factures, états comptables, listes de prix.

Génération

Création de PDF

Claude peut aussi créer un PDF (devis, facture, rapport) à partir de données structurées. La Skill gère la mise en page, pagination, en-têtes.

§03 · Cas 1 — Synthétiser un dossier

80 pages en 5 minutes

Vous recevez un dossier d'audit de 80 pages avant une réunion demain. Pas le temps de tout lire. Claude vous prépare un brief structuré.

Vous : Voici le dossier d'audit "Mission Client X.pdf"
(80 pages).

Prépare-moi un brief de 2 pages avec :
  - Contexte et périmètre de la mission
  - 5 constats principaux (avec n° de page)
  - 3 recommandations majeures
  - Points de vigilance ou alertes signalées
  - Questions à poser au client en réunion

Reste fidèle au document, ne fabule pas. Si une
information importante manque, signale-la plutôt
que de l'inventer.
§04 · Cas 2 — Extraction structurée

25 factures en une passe

Cas extrêmement fréquent : un PDF contient des données que vous voudriez exploiter en Excel ou en base. Factures, CV, fiches produits, états financiers. Claude extrait et structure.

Vous : Voici 25 factures fournisseurs en PDF
(scan + texte mélangés).

Pour chacune, extrais :
  - Numéro de facture
  - Date d'émission, Date d'échéance
  - Fournisseur (nom)
  - Montant HT, TVA, Montant TTC
  - Catégorie de dépense (déduite de l'objet)

Restitue le résultat en CSV avec en-têtes,
encodage UTF-8 BOM (pour Excel).

Pour les factures que tu n'arrives pas à lire
correctement, indique-le dans une ligne séparée
avec le nom du fichier.
Cas Cabinet PEDETTI

Sur les dossiers Qualiopi, beaucoup de pièces sont reçues en PDF (CV des formateurs, conventions, attestations). Cette procédure d'extraction permet de constituer en quelques minutes un tableau de bord Excel à partir de dossiers PDF dispersés. Idéal pour la préparation des audits.

§05 · Cas 3 — Comparer plusieurs versions

Contrat v2 vs v3 en 5 minutes

Vous recevez la v3 d'un contrat alors que vous travaillez encore sur la v2. Le client n'a pas activé le suivi des modifications. Identifier les différences à la main est pénible et risqué.

Vous : Voici contrat-v2.pdf et contrat-v3.pdf.

Liste toutes les différences entre les deux versions,
regroupées par :
  - Modifications de fond (nouvelle clause,
    suppression, changement de sens)
  - Modifications de forme (reformulation
    sans changement de sens)
  - Chiffres modifiés (montants, dates, échéances)

Pour chaque modification : numéro de page, section
concernée. Mets en évidence les modifications à
risque (responsabilité, pénalités, durée).
§06 · PDF scannés — limites OCR

Quand l'OCR est fragile

Scans propres

Très bons résultats

Pages droites, haute résolution, texte imprimé en français standard : Claude lit très bien.

Mauvaise qualité

Précision dégradée

Pages floues, tordues, plis, taches. L'OCR peut rater des mots ou les confondre. Toujours vérifier les chiffres et noms propres en sortie.

Manuscrit

Aléatoire

Écriture imprimée et soignée : reconnue. Écriture cursive courante ou annotations marginales : beaucoup moins fiable.

Tableaux scannés

Structure perdue

Les tableaux extraits de scans perdent souvent leur structure. La restitution arrive en bloc texte, à reformater manuellement ou via un second prompt.

Stratégie pour les scans critiques

Pour des documents à enjeu (contrats signés, justificatifs comptables, dossiers légaux), considérer l'OCR Claude comme une aide à la lecture, pas un substitut à la lecture humaine. Le gain est dans la pré-structuration, pas dans la suppression du contrôle.

§07 · Génération de PDF

L'autre face du PDF

Au-delà de l'extraction, Claude peut générer des PDF formatés à partir de données structurées : devis, factures, attestations de fin de formation, rapports automatisés.

Vous : Génère un PDF de devis pour la mission suivante :

  Client : Société DUPONT
  Référence : DEV-2026-014
  Date : 15 mai 2026 · Validité : 30 jours

  Prestations :
    - Audit organisationnel : 5 jours × 1200 € HT
    - Restitution + accompagnement : 2 jours × 1200 € HT

  Conditions : 30% à la commande, 70% à la livraison

Utilise le template-devis.pdf comme référence
graphique. En-tête avec logo, pied de page avec
SIRET. Place le résultat dans /outputs/.
Fin · Leçon 21 acquise

Cap sur la leçon 22

PDF est couvert. Dernière leçon : Outlook — connecteur M365, synthèse de fils de discussion, recherche contextuelle, brouillons de réponse.

Exercice — appropriation

Sur trois PDF réels reçus dans votre activité : (1) un dossier volumineux (30+ pages) — faire synthétiser, (2) une pièce structurée (facture, CV, fiche produit) — demander l'extraction CSV, (3) un PDF scanné — tester la qualité OCR. Évaluer le gain de temps et la fiabilité sur chaque cas.

Quiz · Validation des acquis

Quiz · PDF avec Claude

8 questions · une seule bonne réponse par question · vous pouvez recommencer autant de fois que nécessaire.

1 / 8
Question à choix multiple

Pourquoi le PDF est-il à la fois omniprésent et difficile à exploiter ?

Cliquez sur lecture pour démarrer.
§00 · Intro 0:00 / 8:00 Voix activée