YOAT Lab
Cabinet PEDETTI · Formation Claude · Maîtrise
Module 6 · 8 leçons
Data et Bureautique
Module 6 — Data et Bureautique

PDF avec Claude — extraire, comprendre, restructurer

Capsule 8 min Type pratique Modalité e-learning Niveau maîtrise
Objectif opérationnel

À l'issue de cette leçon, le stagiaire utilise Claude pour traiter des PDF reçus : extraire des données structurées, synthétiser des dossiers volumineux, comparer plusieurs versions, et gérer les PDF scannés via OCR.

§ 01

Le PDF — format roi de la réception, format opaque à exploiter

Le PDF est le format dans lequel vous recevez 80 % des documents externes : CV de candidats, dossiers clients, rapports d'audit, factures fournisseurs, conventions signées, articles scientifiques, livres blancs. C'est le format de référence pour échanger un document fini.

Mais le PDF est aussi le format le plus pénible à exploiter : pas d'édition simple, structure souvent perdue, parfois scannés et non textuels. Claude excelle particulièrement sur ce terrain, parce qu'il peut extraire l'information utile sans que vous ayez à reconvertir manuellement.

Pourquoi c'est crucial en cabinet

Un cabinet qui traite 50 dossiers par mois reçoit potentiellement 500 PDF. La capacité à les lire, synthétiser et extraire automatiquement représente plusieurs jours de travail économisés chaque mois. C'est sans doute l'usage à plus fort retour sur investissement de toute la formation.

§ 02

La Skill pdf — ce que Claude sait faire

Lecture native des PDF textuels

Texte, structure, titres, listes, tableaux simples. Claude extrait tout cela sans manipulation supplémentaire. Fonctionne sur les PDF générés depuis Word, des navigateurs, des outils de génération.

OCR sur les PDF scannés

Les PDF scannés (images de pages) sont reconnus et le texte est extrait par OCR (reconnaissance optique de caractères). Fiable sur des scans propres, plus aléatoire sur des scans de mauvaise qualité ou des écritures manuscrites.

Extraction de tableaux

Les tableaux contenus dans un PDF peuvent être restitués en Markdown, CSV ou Excel. Très utile pour les factures, états comptables, listes de prix.

Génération de nouveau PDF

Claude peut aussi créer un PDF (devis, facture, rapport) à partir de données structurées. La Skill pdf gère la mise en page, la pagination, les en-têtes.

§ 03

Cas d'usage 1 — Synthétiser un dossier volumineux

Vous recevez un dossier d'audit de 80 pages avant une réunion demain. Cas classique : pas le temps de tout lire. Claude vous prépare un brief structuré.

 Voici le dossier d'audit "Mission ClientX 2025.pdf" (80 pages).

Prépare-moi un brief de 2 pages avec :
  - Contexte et périmètre de la mission
  - 5 constats principaux (avec n° de page de chacun)
  - 3 recommandations majeures
  - Points de vigilance ou alertes signalées
  - Questions à poser au client en réunion

Reste fidèle au document, ne fabule pas. Si une
information importante manque, signale-la
plutôt que de l'inventer.

Ce qui prend habituellement 2-3 heures de lecture en diagonale tient en 5 minutes de lecture du brief Claude + 15 minutes de vérification des passages clés. Vous arrivez en réunion en ayant l'essentiel.

§ 04

Cas d'usage 2 — Extraire des données structurées

Cas extrêmement fréquent : un PDF contient des données que vous voudriez exploiter en Excel ou en base. Factures fournisseurs, CV de candidats, fiches produits, états financiers. Claude extrait et structure.

Cas Cabinet PEDETTI

Sur les dossiers Qualiopi, beaucoup de pièces sont reçues en PDF (CV des formateurs, conventions, attestations). Cette procédure d'extraction permet de constituer en quelques minutes un tableau de bord Excel à partir de dossiers PDF dispersés. Idéal pour la préparation des audits Qualiopi.

 Voici 25 factures fournisseurs en PDF
(scan + texte mélangés).

Pour chacune, extrais :
  - Numéro de facture
  - Date d'émission
  - Date d'échéance
  - Fournisseur (nom)
  - Montant HT
  - TVA
  - Montant TTC
  - Catégorie de dépense (déduite de l'objet)

Restitue le résultat en CSV avec en-têtes en
première ligne, encodage UTF-8 BOM (pour Excel).

Pour les factures que tu n'arrives pas à lire
correctement, indique-le dans une ligne séparée
avec le nom du fichier.
§ 05

Cas d'usage 3 — Comparer plusieurs versions

Vous recevez la v3 d'un contrat alors que vous travaillez encore sur la v2. Le client n'a pas activé le suivi des modifications. Identifier les différences à la main est pénible et risqué.

 Voici contrat-v2.pdf et contrat-v3.pdf.

Liste-moi toutes les différences entre les deux
versions, regroupées par :
  - Modifications de fond (changement de sens,
    nouvelle clause, suppression de clause)
  - Modifications de forme (reformulation sans
    changement de sens, ponctuation, mise en page)
  - Chiffres modifiés (montants, dates, échéances)

Pour chaque modification, donne le numéro de page
et la section concernée. Mets en évidence les
modifications à risque (clauses de responsabilité,
pénalités, durée d'engagement).

Comparer deux contrats de 30 pages à la main = 1 à 2 heures. Avec Claude : 5 minutes pour la sortie, 20 minutes de vérification ciblée sur les modifications à risque. Sur un cabinet qui traite plusieurs contrats par semaine, c'est un gain de plusieurs jours par mois.

§ 06

Cas d'usage 4 — PDF scanné, OCR et qualité

Les PDF scannés sont la vraie difficulté du format. Un scan propre, droit, en haute résolution, sur du texte imprimé en français standard, Claude le lit très bien. Les conditions qui dégradent la qualité de l'OCR :

Scans de mauvaise qualité

Pages floues, tordues, plis, taches. L'OCR peut rater des mots ou les confondre. Toujours vérifier les chiffres et noms propres en sortie.

Écriture manuscrite

Claude peut reconnaître l'écriture manuscrite imprimée et soignée. Beaucoup moins fiable sur l'écriture cursive courante ou les annotations marginales.

Tableaux scannés avec lignes

Les tableaux extraits de scans perdent souvent leur structure. La restitution arrive en bloc texte, à reformater manuellement ou via un second prompt.

Documents multilingues

Sur un document principalement en français avec quelques passages dans une autre langue, Claude gère bien. Sur des documents véritablement bilingues (deux colonnes), la lecture peut s'embrouiller.

Stratégie pour les scans critiques

Pour des documents à enjeu (contrats signés, justificatifs comptables, dossiers légaux), considérez l'OCR Claude comme une aide à la lecture, pas un substitut à la lecture humaine du document original. Le gain est dans la pré-structuration, pas dans la suppression du contrôle.

§ 07

Génération de PDF — l'autre face

Au-delà de l'extraction, Claude peut générer des PDF formatés à partir de données structurées. Cas d'usage typiques : devis, factures, attestations de fin de formation, rapports automatisés.

 Génère un PDF de devis pour la mission suivante :

  Client : Société DUPONT
  Référence : DEV-2026-014
  Date : 15 mai 2026
  Validité : 30 jours

  Prestations :
    - Audit organisationnel : 5 jours × 1200 € HT
    - Restitution + accompagnement : 2 jours × 1200 € HT

  Conditions : 30% à la commande, 70% à la livraison

Utilise le template-devis.pdf comme référence
graphique. En-tête avec logo (déjà dans le template),
pied de page avec mentions légales et SIRET.

Place le résultat dans /outputs/devis-DUPONT-2026-014.pdf

Pour des séries de PDF récurrents (factures mensuelles, attestations de formation), automatiser cette génération via Claude Code représente un gain énorme par rapport à la production manuelle dans Word puis export PDF.

Exercice — appropriation

Trois traitements PDF sur des documents réels

Sur trois PDF réels reçus dans le cadre de votre activité : (1) Un dossier volumineux (rapport, étude, livre blanc de 30+ pages) — demandez à Claude une synthèse structurée. (2) Une pièce structurée (facture, CV, fiche produit) — demandez l'extraction en CSV. (3) Un PDF scanné — testez la qualité de l'OCR sur un cas réel. Évaluez le gain de temps et la fiabilité sur chaque cas.

Cet exercice est à conserver dans votre dossier de stagiaire. Il n'est pas évalué mais il est tracé.

Sources officielles consultées

Vous savez utiliser Claude pour synthétiser, extraire, comparer et générer des PDF ?