A gravação decide 80% da sua precisão
Nenhuma ferramenta transcreve o que o microfone nunca captou. A maior alavanca da qualidade de uma transcrição não é o software – é o som que entra nele. Numa entrevista presencial, ponha um gravador perto de cada pessoa, longe de superfícies duras que ressoam e afastado de saídas de ar-condicionado, geladeiras e da máquina de espresso do café. Um microfone de lapela de R$ 150 preso à roupa ganha sempre de um celular largado no outro lado da mesa.
Para entrevistas remotas, grave cada lado em sua própria pista se a plataforma permitir. A opção do Zoom de "gravar um arquivo de áudio separado para cada participante" e a gravação local por faixa do Riverside isolam cada falante, o que deixa a diarização (a identificação de quem fala) muito mais limpa – a ferramenta não precisa adivinhar quem está falando quando duas pessoas se sobrepõem. Se só der para ter um único arquivo misturado, tudo bem; é só contar com corrigir mais trocas de turno na mão.
Antes de começar, diga o nome de cada pessoa e a data dentro da gravação. Parece exagero, mas isso registra com data o consentimento, fixa quem é o "Falante 1" e poupa você de reouvir tudo para descobrir qual voz é a fonte e qual é a sua.
Por que um primeiro rascunho com IA ganha do teclado – e onde não ganha
Digitar uma transcrição à mão leva cerca de quatro a seis vezes a duração do áudio: uma entrevista de uma hora vira meio expediente no teclado. Um primeiro rascunho com IA transforma essa hora em alguns minutos de processamento mais uma limpeza focada, e o reconhecimento de fala atual é preciso o suficiente para você estar editando, e não retranscrevendo. Na maioria das entrevistas você vai mudar um punhado de palavras por minuto, não refazer frases inteiras.
Onde a IA ainda precisa de você: nomes próprios (pessoas, empresas, lugares), jargões e siglas do setor, números ditos depressa e os cruzamentos de fala em que duas pessoas falam ao mesmo tempo. São justamente os pontos que mais importam para uma citação atribuível – por isso o fluxo certo é deixar a máquina cuidar do volume e gastar a sua atenção nos 5% que sustentam tudo.
Se um trecho está de fato incompreensível no áudio, marque-o como [inaudível] com a marcação de tempo em vez de chutar. Uma lacuna sinalizada é honesta; uma citação confiantemente errada é uma errata esperando para acontecer.
Verbatim estrito, verbatim limpo ou legível?
Defina seu estilo antes de editar, porque ele muda cada linha. O verbatim estrito mantém todo "é...", começo falso e repetição – é o que você quer para análise de discurso, contexto jurídico ou quando o modo como algo foi dito é o ponto. O verbatim limpo descarta muletas e gaguejos, mas preserva as palavras e a gramática reais do falante – o padrão para a maior parte do jornalismo e da pesquisa. O verbatim inteligente (legível) ajusta de leve a gramática para a citação fluir bem no texto impresso sem mudar o sentido.
Escolha um e aplique com consistência. O caminho mais rápido é partir de um rascunho limpo, com falantes identificados, e então, só nas citações que você vai publicar, apertar o texto para o estilo escolhido. Não poliça a transcrição inteira até o nível de publicação – a maior parte dela você nunca vai citar. Gaste o esforço nas linhas que entram na matéria.
Independentemente do que escolher, nunca corrija em silêncio um deslize factual da fonte. Se ela disser o ano errado, a citação mantém o ano errado; você resolve isso com um [sic] ou uma paráfrase, não com uma edição discreta.
Mantenha as marcações de tempo – são sua trilha de auditoria
Uma transcrição com marcações de tempo é a diferença entre "acho que ela disse isso" e "ela disse às 14:32". Para qualquer citação que você publique, você vai querer voltar direto ao áudio e ouvi-la em contexto antes de ela sair. Marcações por palavra ou por frase deixam você conferir em segundos, em vez de varrer o áudio inteiro.
As marcações de tempo também tornam uma entrevista longa navegável. Use-as para montar um índice rápido dos momentos que importam – a resposta em que a história vira, o número com que você vai abrir, a frase que vai virar manchete – para que, na hora de escrever, você salte para esses pontos em vez de reler 9 mil palavras.
Se você está colaborando ou checando fatos, compartilhe a transcrição com as marcações de tempo intactas. Um checador que consegue ouvir a linha exata trabalha muito mais rápido e confia mais na citação do que quem só encara o texto.
Lide com consentimento, fontes sensíveis e armazenamento como profissional
Obtenha consentimento para gravar de forma registrada, idealmente captado no próprio áudio. As leis de gravação variam – muitos lugares aceitam o consentimento de uma só parte, vários exigem que todos concordem, e países diferentes têm regras diferentes – então, na dúvida, pergunte e obtenha um sim claro antes do assunto começar.
Para material sensível ou off the record, preste atenção a onde o áudio e a transcrição ficam guardados. Use uma ferramenta que não treine IA com seus arquivos, deixe você apagar as gravações após o processamento e não as retenha em silêncio. O Pepys nunca treina com seu áudio ou texto, e você pode apagar os arquivos automaticamente depois que eles são transcritos.
Anonimize na própria transcrição quando uma fonte precisar de proteção: ao limpar o rascunho, troque os nomes por um rótulo de função, e mantenha a versão completa sem cortes em algum lugar com acesso controlado. Não saia mandando a transcrição bruta por e-mail se um nome puder colocar alguém em risco.