Transcrição de áudio retornando JSON estruturado com timestamps e speakers
O token HF é obtido automaticamente das variáveis do Space
Deixe vazio para usar token do ambiente