PDF avec Claude — extraire, comprendre, restructurer
À l'issue de cette leçon, le stagiaire utilise Claude pour traiter des PDF reçus : extraire des données structurées, synthétiser des dossiers volumineux, comparer plusieurs versions, et gérer les PDF scannés via OCR.
Le PDF — format roi de la réception, format opaque à exploiter
Le PDF est le format dans lequel vous recevez 80 % des documents externes : CV de candidats, dossiers clients, rapports d'audit, factures fournisseurs, conventions signées, articles scientifiques, livres blancs. C'est le format de référence pour échanger un document fini.
Mais le PDF est aussi le format le plus pénible à exploiter : pas d'édition simple, structure souvent perdue, parfois scannés et non textuels. Claude excelle particulièrement sur ce terrain, parce qu'il peut extraire l'information utile sans que vous ayez à reconvertir manuellement.
Un cabinet qui traite 50 dossiers par mois reçoit potentiellement 500 PDF. La capacité à les lire, synthétiser et extraire automatiquement représente plusieurs jours de travail économisés chaque mois. C'est sans doute l'usage à plus fort retour sur investissement de toute la formation.
La Skill pdf — ce que Claude sait faire
Lecture native des PDF textuels
Texte, structure, titres, listes, tableaux simples. Claude extrait tout cela sans manipulation supplémentaire. Fonctionne sur les PDF générés depuis Word, des navigateurs, des outils de génération.
OCR sur les PDF scannés
Les PDF scannés (images de pages) sont reconnus et le texte est extrait par OCR (reconnaissance optique de caractères). Fiable sur des scans propres, plus aléatoire sur des scans de mauvaise qualité ou des écritures manuscrites.
Extraction de tableaux
Les tableaux contenus dans un PDF peuvent être restitués en Markdown, CSV ou Excel. Très utile pour les factures, états comptables, listes de prix.
Génération de nouveau PDF
Claude peut aussi créer un PDF (devis, facture, rapport) à partir de données structurées. La Skill pdf gère la mise en page, la pagination, les en-têtes.
Cas d'usage 1 — Synthétiser un dossier volumineux
Vous recevez un dossier d'audit de 80 pages avant une réunion demain. Cas classique : pas le temps de tout lire. Claude vous prépare un brief structuré.
→ Voici le dossier d'audit "Mission ClientX 2025.pdf" (80 pages).
Prépare-moi un brief de 2 pages avec :
- Contexte et périmètre de la mission
- 5 constats principaux (avec n° de page de chacun)
- 3 recommandations majeures
- Points de vigilance ou alertes signalées
- Questions à poser au client en réunion
Reste fidèle au document, ne fabule pas. Si une
information importante manque, signale-la
plutôt que de l'inventer.Ce qui prend habituellement 2-3 heures de lecture en diagonale tient en 5 minutes de lecture du brief Claude + 15 minutes de vérification des passages clés. Vous arrivez en réunion en ayant l'essentiel.
Cas d'usage 2 — Extraire des données structurées
Cas extrêmement fréquent : un PDF contient des données que vous voudriez exploiter en Excel ou en base. Factures fournisseurs, CV de candidats, fiches produits, états financiers. Claude extrait et structure.
Sur les dossiers Qualiopi, beaucoup de pièces sont reçues en PDF (CV des formateurs, conventions, attestations). Cette procédure d'extraction permet de constituer en quelques minutes un tableau de bord Excel à partir de dossiers PDF dispersés. Idéal pour la préparation des audits Qualiopi.
→ Voici 25 factures fournisseurs en PDF
(scan + texte mélangés).
Pour chacune, extrais :
- Numéro de facture
- Date d'émission
- Date d'échéance
- Fournisseur (nom)
- Montant HT
- TVA
- Montant TTC
- Catégorie de dépense (déduite de l'objet)
Restitue le résultat en CSV avec en-têtes en
première ligne, encodage UTF-8 BOM (pour Excel).
Pour les factures que tu n'arrives pas à lire
correctement, indique-le dans une ligne séparée
avec le nom du fichier.
Cas d'usage 3 — Comparer plusieurs versions
Vous recevez la v3 d'un contrat alors que vous travaillez encore sur la v2. Le client n'a pas activé le suivi des modifications. Identifier les différences à la main est pénible et risqué.
→ Voici contrat-v2.pdf et contrat-v3.pdf.
Liste-moi toutes les différences entre les deux
versions, regroupées par :
- Modifications de fond (changement de sens,
nouvelle clause, suppression de clause)
- Modifications de forme (reformulation sans
changement de sens, ponctuation, mise en page)
- Chiffres modifiés (montants, dates, échéances)
Pour chaque modification, donne le numéro de page
et la section concernée. Mets en évidence les
modifications à risque (clauses de responsabilité,
pénalités, durée d'engagement).Comparer deux contrats de 30 pages à la main = 1 à 2 heures. Avec Claude : 5 minutes pour la sortie, 20 minutes de vérification ciblée sur les modifications à risque. Sur un cabinet qui traite plusieurs contrats par semaine, c'est un gain de plusieurs jours par mois.
Cas d'usage 4 — PDF scanné, OCR et qualité
Les PDF scannés sont la vraie difficulté du format. Un scan propre, droit, en haute résolution, sur du texte imprimé en français standard, Claude le lit très bien. Les conditions qui dégradent la qualité de l'OCR :
Scans de mauvaise qualité
Pages floues, tordues, plis, taches. L'OCR peut rater des mots ou les confondre. Toujours vérifier les chiffres et noms propres en sortie.
Écriture manuscrite
Claude peut reconnaître l'écriture manuscrite imprimée et soignée. Beaucoup moins fiable sur l'écriture cursive courante ou les annotations marginales.
Tableaux scannés avec lignes
Les tableaux extraits de scans perdent souvent leur structure. La restitution arrive en bloc texte, à reformater manuellement ou via un second prompt.
Documents multilingues
Sur un document principalement en français avec quelques passages dans une autre langue, Claude gère bien. Sur des documents véritablement bilingues (deux colonnes), la lecture peut s'embrouiller.
Pour des documents à enjeu (contrats signés, justificatifs comptables, dossiers légaux), considérez l'OCR Claude comme une aide à la lecture, pas un substitut à la lecture humaine du document original. Le gain est dans la pré-structuration, pas dans la suppression du contrôle.
Génération de PDF — l'autre face
Au-delà de l'extraction, Claude peut générer des PDF formatés à partir de données structurées. Cas d'usage typiques : devis, factures, attestations de fin de formation, rapports automatisés.
→ Génère un PDF de devis pour la mission suivante :
Client : Société DUPONT
Référence : DEV-2026-014
Date : 15 mai 2026
Validité : 30 jours
Prestations :
- Audit organisationnel : 5 jours × 1200 € HT
- Restitution + accompagnement : 2 jours × 1200 € HT
Conditions : 30% à la commande, 70% à la livraison
Utilise le template-devis.pdf comme référence
graphique. En-tête avec logo (déjà dans le template),
pied de page avec mentions légales et SIRET.
Place le résultat dans /outputs/devis-DUPONT-2026-014.pdfPour des séries de PDF récurrents (factures mensuelles, attestations de formation), automatiser cette génération via Claude Code représente un gain énorme par rapport à la production manuelle dans Word puis export PDF.
Trois traitements PDF sur des documents réels
Sur trois PDF réels reçus dans le cadre de votre activité : (1) Un dossier volumineux (rapport, étude, livre blanc de 30+ pages) — demandez à Claude une synthèse structurée. (2) Une pièce structurée (facture, CV, fiche produit) — demandez l'extraction en CSV. (3) Un PDF scanné — testez la qualité de l'OCR sur un cas réel. Évaluez le gain de temps et la fiabilité sur chaque cas.
Cet exercice est à conserver dans votre dossier de stagiaire. Il n'est pas évalué mais il est tracé.
- docs.claude.com — Files documentation officielle, formats PDF supportés
- docs.claude.com — PDF support détails techniques sur le traitement des PDF (texte et OCR)
Vous savez utiliser Claude pour synthétiser, extraire, comparer et générer des PDF ?