Jusqu'ici, un SVI demandait à votre contact d'appuyer sur une touche pour exprimer son consentement. Avec la reconnaissance vocale, il peut désormais répondre à voix haute — et vous en conservez la preuve audio, horodatée, téléchargeable depuis votre tableau de bord.
Caicus intègre désormais la reconnaissance vocale (Speech-to-Text) dans ses SVI sortants, combinée à une option d'enregistrement de l'appel. Ces deux fonctionnalités, utilisées ensemble dans un scénario de collecte de consentement, produisent une preuve que ni une case cochée sur un formulaire, ni une touche de téléphone ne peuvent égaler : la voix du contact lui-même, capturée et archivée.
De la touche au mot : pourquoi passer à la reconnaissance vocale ?
Un SVI classique interagit par touches DTMF : « Appuyez sur 1 pour accepter, sur 2 pour refuser ». Ce mécanisme est simple et robuste, mais il a une limite majeure dans un contexte de consentement RGPD : la trace produite est uniquement numérique. On sait qu'une touche a été pressée — pas que la personne a compris et formulé un accord.
La reconnaissance vocale (STT — Speech-to-Text) change la donne. Le SVI pose sa question, et le contact répond à voix haute : « Oui, j'accepte », « Non, je refuse », ou toute autre formulation que votre scénario attend. Le moteur STT transcrit la réponse en temps réel et oriente l'appel vers la branche correspondante de votre arborescence, exactement comme le ferait un appui sur une touche — mais avec une richesse documentaire incomparablement supérieure.
| Critère | SVI à touches (DTMF) | SVI + Reconnaissance vocale |
|---|---|---|
| Facilité pour l'appelé | Bonne | Très bonne — parler est plus naturel qu'appuyer |
| Trace produite | Événement numérique (touche pressée) | Transcription textuelle + enregistrement audio |
| Valeur probante du consentement | Moyenne | Forte — la voix est une preuve directe |
| Compatibilité téléphones fixes anciens | ✓ Universelle | ✓ Universelle (la voix fonctionne sur tout réseau) |
| Coût supplémentaire par appel | Aucun | +0,25 crédit |
Comment configurer un SVI avec STT dans Caicus
La configuration d'un SVI avec reconnaissance vocale suit exactement le même principe visuel que pour un SVI classique. Depuis l'éditeur d'arborescence, chaque étape dispose d'un champ « Speech trigger » — c'est là que vous définissez les mots ou phrases attendus pour déclencher la branche correspondante.
L'arborescence d'un SVI de collecte de consentement : l'étape initiale joue le message CC0, puis oriente l'appel vers « Consentement accepté » (CC0Oui) ou « Consentement refusé » (CC0Non) selon la réponse vocale du contact.
Dans l'exemple ci-dessus, l'étape initiale joue le message CC0 — le texte légal de demande de consentement. Le contact répond à voix haute. Si le moteur STT détecte une réponse positive, l'appel bascule sur la branche « Consentement accepté » (qui joue CC0Oui) ; en cas de réponse négative ou d'absence de réponse reconnue, il bascule sur « Consentement refusé » (qui joue CC0Non). L'intégralité du flux est identique à un SVI à touches — seul le mode de déclenchement change.
Créez votre arborescence SVI
Depuis l'éditeur visuel, définissez vos étapes et rédigez vos messages. Associez à chaque étape le speech à jouer (CC0, CC0Oui, CC0Non…).
Activez la reconnaissance vocale
Pour chaque étape où vous attendez une réponse orale, renseignez le champ « Enter speech trigger » avec les mots attendus. Le moteur STT écoutera la réponse de l'appelé en temps réel.
Activez l'enregistrement
Depuis les paramètres de votre campagne, cochez l'option « Enregistrement ». L'intégralité de chaque appel sera capturée et archivée dans votre rapport d'activité.
Lancez et archivez
Une fois la campagne terminée, retrouvez chaque enregistrement dans votre tableau de bord, téléchargeable au format WAV, horodaté et lié au numéro de téléphone de l'appelé.
Le rapport d'activité : toutes vos preuves en un seul endroit
Chaque appel effectué avec l'option d'enregistrement activée apparaît dans le Rapport d'Activité de votre campagne. Vous y retrouvez, pour chaque ligne : le type d'événement, l'heure précise, le numéro appelé, la durée de l'appel en secondes, le tarif en crédits — et un bouton ↓ WAV pour télécharger l'enregistrement immédiatement.
Le Rapport d'Activité centralise tous les appels de la campagne avec leur durée, leur statut et le fichier audio téléchargeable — une archive clé en main en cas de contrôle RGPD.
Le graphique Taux de complétion en haut à gauche permet de visualiser en un coup d'œil la distribution des réponses : combien de contacts ont accepté (oui), refusé (non), reçu un message sur répondeur (Voicemail Delivered), ou n'ont pas abouti (Unconcluded). Ce tableau de bord transforme votre campagne de consentement en une opération traçable, auditable et exportable.
Tarification : des options à la carte
Les fonctionnalités STT et enregistrement sont des options indépendantes que vous activez selon vos besoins. Elles s'ajoutent au coût de base de l'appel et se cumulent si vous les activez toutes les deux.
Pour une campagne de 1 000 contacts avec STT et enregistrement activés, comptez 1 500 crédits — soit l'assurance d'avoir, pour chaque appel abouti, une preuve audio de la réponse formulée par votre contact. Rapporté au coût d'un litige ou d'une mise en demeure CNIL, c'est une protection à un prix négligeable.
Cas d'usage : qui bénéficie le plus de cette combinaison ?
Établissements de santé
Le consentement éclairé aux soins ou au partage de données médicales exige une preuve solide. L'enregistrement vocal du « j'accepte » du patient constitue une documentation médicale et légale de premier plan.
Cabinets d'avocats
La confirmation orale d'un accord procédural ou d'un mandat, capturée et archivée, peut valoir une signature dans certains contextes. Le cabinet dispose d'une trace incontestable sans mobiliser son secrétariat.
Campagnes marketing
Avec l'interdiction générale du démarchage sans consentement prévue pour août 2026, les entreprises doivent bâtir une base de contacts opt-in solide. Rien n'est plus solide qu'un « oui » enregistré.
Assurances & mutuelles
La souscription orale à un avenant ou à une option, ou la confirmation d'une résiliation, prend une tout autre valeur lorsqu'elle est capturée. Le service client peut rappeler l'enregistrement en cas de contestation.
Instituts de sondage
Le consentement à participer à une enquête portant sur des données sensibles (santé, opinion politique) nécessite une trace explicite. L'enregistrement de l'accord verbal répond à cette exigence sans friction pour le répondant.
BTP & rénovation
Depuis le 1er juillet 2025, le démarchage dans la rénovation énergétique est interdit sauf contrat existant. Les entreprises disposant d'un consentement enregistré peuvent continuer à contacter leurs anciens clients en toute légalité.
Enregistrement et RGPD : ce qu'il faut prévoir
L'enregistrement d'un appel téléphonique constitue un traitement de données personnelles au sens du RGPD. Avant d'activer cette option sur vos campagnes, quelques précautions s'imposent.
- Informer l'appelé avant l'enregistrement — le message d'introduction du SVI doit mentionner explicitement que l'appel est susceptible d'être enregistré. Cette mention peut être intégrée directement dans votre texte CC0.
- Déclarer le traitement dans votre registre RGPD — les enregistrements constituent une nouvelle catégorie de données personnelles à documenter dans votre registre des activités de traitement.
- Définir une durée de conservation — la CNIL recommande de ne conserver les enregistrements que le temps nécessaire à leur finalité. Pour un consentement, une durée de 3 ans après le dernier contact est généralement retenue.
- Garantir le droit d'accès et d'effacement — un contact peut demander à écouter son enregistrement ou à le supprimer. Caicus vous permet de télécharger et de supprimer individuellement chaque fichier WAV depuis votre tableau de bord.
Activez la reconnaissance vocale et l'enregistrement sur votre prochain SVI Caicus. Vos contacts répondent à voix haute, vous conservez la preuve audio — le tout en quelques clics, sans installation ni infrastructure.
Créer mon SVI avec enregistrement →