L'enregistrement décide 80 % de votre précision
Aucun outil ne peut transcrire ce que le micro n'a jamais capté. Le plus grand levier sur la qualité d'une transcription, ce n'est pas le logiciel – c'est le son qui y entre. Pour un entretien en présentiel, placez un enregistreur près de chaque interlocuteur, loin des surfaces dures qui résonnent, et à l'écart des bouches d'aération, des réfrigérateurs et de la machine à expresso du café. Un micro-cravate à 30 € accroché au revers bat à tous les coups un téléphone posé à l'autre bout de la table.
Pour les entretiens à distance, enregistrez chaque participant sur sa propre piste si votre plateforme le permet. L'option « enregistrer un fichier audio distinct par participant » de Zoom et l'enregistrement local par piste de Riverside isolent chacun des locuteurs, ce qui rend la diarisation (l'identification des locuteurs) nettement plus propre – l'outil ne devine plus qui parle quand deux personnes se chevauchent. Si vous n'avez qu'un seul fichier mixé, ce n'est pas grave ; attendez-vous simplement à corriger davantage de tours de parole à la main.
Avant de commencer, prononcez le nom de chaque personne et la date dans l'enregistrement. Ça paraît tatillon, mais ça horodate le consentement, ancre l'identité de « Locuteur 1 » et vous évite de réécouter pour deviner quelle voix est la source et laquelle est la vôtre.
Pourquoi un premier jet par l'IA bat la frappe – et où il échoue
Taper une transcription à la main prend environ quatre à six fois la durée de l'audio : un entretien d'une heure, c'est une demi-journée au clavier. Un premier jet par l'IA transforme cette heure en quelques minutes de traitement suivies d'un nettoyage ciblé, et la reconnaissance vocale actuelle est assez précise pour que vous corrigiez plutôt que vous retranscriviez. Pour la plupart des entretiens, vous changerez une poignée de mots par minute, pas des phrases entières.
Là où l'IA a encore besoin de vous : les noms propres (personnes, entreprises, lieux), le jargon et les acronymes d'un domaine, les chiffres dits trop vite, et les passages où deux personnes parlent en même temps. Ce sont précisément les endroits qui comptent le plus pour une citation attribuable – la bonne méthode consiste donc à laisser la machine traiter le gros du volume et à concentrer votre attention sur les 5 % qui portent tout.
Si un passage est vraiment inaudible dans l'enregistrement, notez [inaudible] avec l'horodatage plutôt que de deviner. Un blanc signalé est honnête ; une citation fausse énoncée avec aplomb est un rectificatif en puissance.
Verbatim strict, verbatim nettoyé ou lisible ?
Choisissez votre style avant d'éditer, car il change chaque ligne. Le verbatim strict conserve chaque « euh », chaque faux départ et chaque répétition – c'est ce qu'il vous faut pour l'analyse du discours, un contexte juridique, ou quand la manière de dire est le sujet. Le verbatim nettoyé supprime les tics de langage et les bafouillages mais garde les mots et la grammaire exacts du locuteur – le réglage par défaut pour la plupart du journalisme et de la recherche. Le verbatim intelligent (lisible) corrige légèrement la grammaire pour qu'une citation se lise sans accroc à l'imprimé, sans en changer le sens.
Choisissez-en un et appliquez-le sans dévier. Le chemin le plus rapide consiste à partir d'un brouillon net avec locuteurs identifiés, puis, pour les citations que vous allez vraiment publier, à les resserrer dans le style choisi. Ne peaufinez pas toute la transcription au niveau publication – la majeure partie ne sera jamais citée. Concentrez l'effort sur les lignes qui iront dans l'article.
Quel que soit votre choix, ne corrigez jamais en douce une erreur de fait commise par une source. Si elle se trompe d'année, la citation garde la mauvaise année ; vous gérez ça avec un [sic] ou une reformulation, pas par une retouche discrète.
Gardez les horodatages – c'est votre piste de vérification
Une transcription horodatée, c'est la différence entre « je crois qu'elle a dit ça » et « elle l'a dit à 14:32 ». Pour chaque citation que vous publiez, vous voulez pouvoir revenir directement à l'audio et l'entendre dans son contexte avant qu'elle ne sorte. Des horodatages au mot ou à la phrase vous permettent de vérifier en quelques secondes au lieu de fouiller l'enregistrement.
Les horodatages rendent aussi navigable un entretien fleuve. Servez-vous-en pour bâtir un index rapide des moments qui comptent – la réponse où l'histoire bascule, le chiffre que vous mettrez en avant, la phrase que vous tirerez pour le titre – afin qu'au moment d'écrire vous sautiez à ces points au lieu de relire 9 000 mots.
Si vous collaborez ou faites du fact-checking, partagez la transcription en conservant les horodatages. Un vérificateur qui peut entendre la ligne exacte travaille bien plus vite et fait davantage confiance à la citation que celui qui n'a que du texte devant lui.
Consentement, sources sensibles et stockage : faites-le en pro
Obtenez le consentement à l'enregistrement de façon explicite, idéalement capté dans l'audio lui-même. Les lois sur l'enregistrement varient – de nombreux États américains pratiquent le consentement d'une seule partie, plusieurs exigent l'accord de tous, et c'est différent ailleurs – alors dans le doute, demandez et obtenez un oui clair avant d'entrer dans le vif.
Pour un contenu sensible ou off, faites attention à l'endroit où vivent l'audio et la transcription. Utilisez un outil qui n'entraîne pas son IA sur vos fichiers, qui vous laisse supprimer les enregistrements après traitement et qui ne les conserve pas en douce. Pepys n'entraîne jamais son IA sur votre audio ni vos textes, et vous pouvez supprimer automatiquement les fichiers une fois transcrits.
Anonymisez directement dans la transcription quand une source a besoin d'être protégée : remplacez les noms par une fonction au fil du nettoyage du brouillon, et gardez la version originale non caviardée dans un espace à accès contrôlé. N'envoyez pas la transcription brute par e-mail à tout-va si un nom peut mettre quelqu'un en danger.