Manuel du transcripteur

La création manuelle de transcriptions d'enregistrements de journaux radio- ou télédiffusés, permet de faire avancer les recherches en transcription automatique, en indexation et en archivage de ce type de documents sonores.

1.1. Documents concernés

Les enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite, une grande diversité de locuteurs et de thèmes abordés. Plusieurs personnes peuvent intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée de tels enregistrements peut varier de quelques dizaines de minutes à plusieurs heures.

Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash, revue de presse, incluant météo et bourse, économie, faits de société ...) dans le document sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions....) ne sera pas transcrite.

1.2. Objectifs du manuel

Nous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations. La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la transcription proprement dite. La transcription est ici la partie la plus importante et donc sur laquelle le maximum d'attention doit être porté.

Les différentes étapes du travail de transcription sont : la segmentation de la bande son, l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques, la transcription orthographique, et la vérification. Ces étapes peuvent être menées en parallèle ou au contraire appliquées séquentiellement sur de longues portion du signal, suivant le choix du transcripteur.

2. Structuration de la transcription

L'étape d'annotation vise à structurer les enregistrements, c'est-à-dire à segmenter et à décrire le signal acoustique à différents niveaux jugés pertinents pour le traitement ultérieur. Il s'agit ici principalement de l'identité du locuteur, de l'identification du contenu thématique, ou de la qualité du canal de transmission (acoustique).

Actuellement, un document de transcription est structuré de la manière la suivante :

L'enregistrement correspond à la totalité de l'enregistrement à transcrire.
L'enregistrement est découpé en sections, délimitant les parties des émissions à transcrire, les enchaînements journalistiques, ou les parties non-transcrites.
À l'intérieur d'une section on va distinguer les tours de parole (turn) qui correspondent à des changements de locuteur.
Les tours de paroles sont eux-mêmes découpés en segments plus courts au moyen de points de synchronisation. La transcription proprement dite n'intervient qu'à ce niveau de structuration.
A certains points de synchronisation, des changements durables de bruit de fond sont indiqués ; cette segmentation en conditions acoustiques est indépendante de la structuration en tours et sections.

2.1. Enregistrement

2.1.1. Comment transcrire un nouvel enregistrement?

Démarrez Transcriber (cf. manuel de référence !)
Créez une nouvelle transcription avec le menu [Fichier]/[Nouvelle transcription]. Une fenêtre de dialogue propose de choisir le fichier son à transcrire.
Indiquez les informations générales associées à l'enregistrement dans la fenêtre [Fichiers]/[Paramètres de l'épisode].
Si vous voulez réutiliser certains locuteurs ou sujets d'une transcription précédente, vous pouvez le faire dès à présent avec [Edition]/[Locuteurs]/[Importer à partir du fichier...] et [Edition]/[Sujets]/[Importer à partir du fichier...].
Enregistrez la nouvelle transcription vide avec [Fichier]/[Enregistrer]. Un nom par défaut dérivé du nom du signal sera proposé.
Enregistrez la configuration avec [Options]/[Enregistrer la configuration], afin de réouvrir automatiquement ces fichiers au prochain démarrage

Par la suite, pensez à enregistrer fréquemment votre travail avec [Fichier]/[Enregistrer] ou le raccourci Control-s, surtout si vous n'avez pas activé la sauvegarde automatique. Par ailleurs, un double affichage du signal (un avec une résolution de 10 secondes, l'autre de une minute environ) peut être pratique.

2.1.2. Caractéristiques de l'enregistrement

Les informations associées à un enregistrement, éditées avec [Fichiers]/[Paramètres de l'épisode], sont les suivantes :

l'identité du transcripteur (par exemple Claire Montaigne) est automatiquement remplie ;
le nom du fichier son à transcrire (par exemple france-inter980428-0700:0820) est automatiquement renseigné ;
la date et le numéro de version de la transcription sont automatiquement renseignés par le logiciel et ne peuvent pas être modifiés ;
le programme: la provenance du document sonore (c'est-à-dire qui a enregistré), la chaîne qui a diffusé le document (par exemple France-Inter) et le nom de l'émission (par exemple tranche matinale 7-9) ;
la date de diffusion ;
la langue principale de diffusion.

Pour des enregistrements de même nature (par exemple sur plusieurs jours) il convient de respecter la même nomenclature pour des programmes identiques.

2.2. Segmentation du signal

Pour fournir des repères temporels par rapport au signal, et pour faciliter le travail de transcription, on segmente le signal en insérant des balises temporelles instantanées de synchronisation (ou frontières).

2.2.1. Où segmenter?

Nous recommandons de faire correspondre ces balises à des groupes de souffle dans le signal ou à des marques de ponctuation dans le langage écrit. Pour des raisons techniques du traitement ultérieur il est également souhaitable de fournir une balise de synchronisation après différents types de problèmes au niveau acoustique (mots mal prononcés, bruit court superposé à un mot...).

En résumé, l'insertion d'une frontière de synchronisation est recommandé dans les situations suivantes :

début et fin d'élocution,
respiration,
ponctuation,
mauvaise prononciation,
bruit instantané,
début et fin de musique...

2.2.2. Comment segmenter?

Choisissez une résolution d'environ 30 secondes pour l'affichage du signal.
Lancez la restitution à partir du début du signal ou du début de la section non encore transcrite.
Pendant la restitution, à chaque instant correspondant à un changement de locuteur ou une zone de silence, une pause, une respiration, un changement de conditions acoustiques... insérez une frontière en pressant la touche Return. Une nouvelle ligne précédée d'un petit cercle apparaît dans la fenêtre de texte, et la segmentation sous le signal est scindée au niveau du curseur.

Vous obtenez une segmentation grossière d'une partie du signal en intervalles de 5 à 20 secondes en moyenne. Il est possible de positionner les frontières plus précisément par la suite.

2.3. Tours et locuteurs

À ce niveau on décrit la succession de tours de parole avec les différents locuteurs qui interviennent.

2.3.1. Comment créer les tours de parole?

Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal.
Si un nouveau locuteur prend la parole au début du segment courant, indiquez le début d'un nouveau tour de parole avec [Segmentation]/[Créer un tour...] ou le raccourci Control-t.
Le locuteur du tour doit être identifié :
- Si le locuteur est connu et existe déjà dans la liste, il suffit de cliquer sur son nom.
- Pour un nouveau locuteur, le nom peut être tapé directement au clavier. Si l'identité est inconnue cliquez simplement sur Créer un locuteur. Les caractéristiques du locuteur (l'orthographe précise de son nom, le genre, l'accent...) peuvent être modifiées plus tard.
S'il s'agit de parole superposée, validez l'option correspondante et identifiez le deuxième locuteur de la même façon.
D'autres caractéristiques du tour (type de parole, canal, qualité) peuvent éventuellement être renseignés.

A la création d'un tour, le locuteur proposé par défaut est l'avant-dernier utilisé, ce qui est pratique dans le cas d'un dialogue.

2.3.2. Caractéristiques des tours

Pour chaque tour de parole le transcripteur indique :

un identificateur du locuteur,

et éventuellement si cela est demandé :

le type de parole : préparé, spontané
la qualité du son : bon, moyen, faible
le canal de transmission : intervention téléphonique ou prise en studio

2.3.3. Caractéristiques des locuteurs

Pour chaque nouveau locuteur le transcripteur indique :

le nom du locuteur s'il est identifié, sinon un numéro de locuteur avec un qualificatif (au titre duquel l'inconnu est intervenu dans l'émission).
le statut : orthographe connue ou incertaine.
le sexe du locuteur : homme, femme, inconnu
langue maternelle : oui/non.
l'accent : on peut spécifier ici les différents accents : régionaux, francophones, étrangers.
le statut global/local : un nom est global s'il est identifiable en dehors du contexte de la transcription (par exemple, un journaliste, un homme politique connu, etc.)

Il est important de respecter l'orthographe des noms. On peut trouver les noms des journalistes et des différentes émissions radio et télé français dans le guide MédiaSid.

On considère tout francophone (français, belge, suisse, québécois) de langue maternelle française.

2.3.4. Parole simultanée

Il faut distinguer différentes situations de parole superposée :

Un locuteur parle, et un autre intervient ponctuellement par des interjections (hum oui ...) ; il convient de noter ces dernières comme de simples bruits se superposant à la parole.
Un locuteur parle en premier plan, et une ou plusieurs voix sont audibles à un niveau moindre (par exemple la voix d'un traducteur est superposée à la voix d'origine) ; seule la voix au premier plan est transcrite et un marqueur de bruit de fond (de type parole ou conversation) doit être utilisé.
Deux locuteurs dialoguent, se coupent mutuellement la parole et parlent simultanément sur plusieurs mots. Le mécanisme de gestion de parole simultanée décrit ci-après peut être appliqué. En cas de difficulté, les segments pourront être annotés comme parole "non-transcrite" .
Si plus de deux locuteurs interviennent à un fort niveau sonore, il faut annoter la portion de signal comme "non-transcrite".

Dans le cas de parole simultanée avec deux locuteurs (cas numéro 3), le deuxième locuteur est identifié dans la fenêtre des paramètres du tour après avoir validé Parole superposée. L'affichage dans le logiciel est par exemple :

Patricia Martin + Invite1
- 1: évidemment découvert que2: enfin n'oubliez pas

Dans la transcription, 1: va identifier les paroles (évidemment découvert que) du premier locuteur (Patricia Martin) et 2: les paroles (enfin n'oubliez pas) du deuxième locuteur Invite1. Les frontières au niveau du signal seront posées au niveau des frontières de mot, de sorte à inclure dans le segment ainsi découpé, toute la parole superposée (par exemple si le mot enfin du locuteur 2 ne démarre qu'à la fin du mot évidemment du locuteur 1, ce dernier est quand même inclus dans le segment).

Cependant la transcription de ce type de signal est très coûteuse. À l'heure actuelle on ne sait pas traiter de manière satisfaisante la parole superposée et les transcriptions, mêmes si elles sont produites, ne sont pas encore exploitées. Le transcripteur peut donc choisir de marquer simplement le signal comme parole superposée sans transcription, avec éventuellement un commentaire décrivant la situation ou le contenu du dialogue.

2.4. Sections et thèmes

La structuration complète d'un enregistrement peut être complexe : une succession d'émissions, composées de sections journalistiques, subdivisées elles-mêmes en rubriques thématiques... En l'état actuel du logiciel, il faut choisir un seul niveau de découpage (en sections journalistiques ou en rubriques thématiques) et les frontières des segments ne sont pas toujours évidentes ; une structuration plus fine est envisagée pour l'avenir.

2.4.1. Que faut-il transcrire?

Un enregistrement peut contenir des segments sans intérêt pour le traitement automatique ultérieur. Les transcriptions sont limitées aux émissions d'information avec les messages d'introduction et de conclusion. Le reste sera annoté non-transcribed, c'est-à-dire inexploitable et ne sera pas transcrit.

2.4.2. Type et thème des sections

Un enregistrement est découpé en sections de 3 types :

Les segments de type report réfèrent à des parties d'émission à transcrire (journal, chronique...). Pour chaque section journalistique, le transcripteur peut indiquer un thème général (journal, revue de presse, chronique, politique, faits de société, économie, bourse, culture, sports, météo) choisi dans une liste prédéfinie, suivi éventuellement d'un titre résumé.
Les segments de type filler ne concernent pas directement le thème journalistique abordé, mais réfèrent plutôt à l'organisation rédactionnelle, à l'enchaînement des journalistes ou des invités etc.
Les segments de type non-trans sont les parties de l'enregistrement dont la transcription n'est pas souhaitée ; il convient d'indiquer au moins la nature de ces segments suivi éventuellement d'un titre résumé (par exemple : publicité - les prêts malins du CA).

2.4.3. Comment indiquer les sections?

Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal.
A chaque changement d'émission ou de sujet (et en fonction des consignes données), indiquez le début d'une nouvelle section avec [Segmentation]/[Créer une section...] ou le raccourci Control-e.
Indiquez pour chaque section :
- le type de la section : report, filler, non-transcribed
- un thème général (journal, politique intérieure, international,
  bourse, économie, culture, sports, météo, faits de société, revue, chronique, ...)suivi éventuellement d'une courte description du sujet.

2.5. Transcription orthographique

Nous abordons ici les problèmes de transcriptions des segments de parole. Ces conventions concernent d'abord la parole pour laquelle la transcription graphémique peut être ambiguë. Elles sont nécessaires ensuite pour coder les bruits, catégorie dans laquelle on regroupe tous les événements acoustiques non assimilables à des mots (ou entrées lexicales) de la langue.

2.5.1. Comment transcrire?

Choisissez une résolution d'environ 10 secondes ou moins pour l'affichage du signal.
Allez au premier segment non transcrit en cliquant sur la ligne correspondante dans le texte ou à la position dans le signal.
Ecoutez ce segment avec [Signal]/[Joue le segment] ou un des raccourcis Shift-Tab ou Alt-Tab; vous pouvez faire une pause ou redémarrer à tout moment avec [Signal]/[Joue/Pause] ou le raccourci Tab.
Si nécessaire, ajustez la frontière entre le segment et son voisin en cliquant sur cette frontière avec la touche Controlenfoncée (ou avec le bouton du milieu) puis en déplaçant la souris.
Tapez la transcription au clavier ; elle apparaît simultanément dans l'éditeur de texte et dans la segmentation sous le signal.
Certains événements (bruits divers, respirations...) peuvent être indiqués avec des balises spéciales par [Edition]/[Insérer une balise]/[...] ou Control-d.
Les changements durables de condition acoustique (bruits de fond persistants) sont à indiquer avec [Segmentation]/[Insérer un bruit de fond].

2.5.2. Conventions de transcription

La transcription graphémique doit permettre de prédire au mieux la prononciation du locuteur. Si une même séquence graphémique permet de générer différentes prononciations (typiquement les dates qu'on peut énoncer en utilisant mille et cent), on adoptera des conventions capables de lever l'ambiguïté. Les conventions concernent aussi les éléments de la langue pour lesquels la transcription n'est pas unique (typiquement les sigles et les épellations, ou encore les nombres qu'on peut écrire sous forme de séquence de chiffres ou comme séquence de mots). Dans tous les cas, les conventions adoptées visent à standardiser la forme graphémique attendue pour minimiser l'ambiguïté, éventuellement en utilisant des balises de prononciation. Les conventions n'étant pas exhaustives le transcripteur peut adopter par défaut une écriture telle qu'on peut la trouver dans des textes de journaux.

Les conventions de transcription sont détaillées dans la 3ème partie.

2.5.3. Transcription ou prononciation ambiguë

La balise de prononciation permet de rajouter par dessus une graphie à prononciation multiple (typiquement les nombres, les sigles/acronymes, noms propres) une description levant l'ambiguïté de la prononciation.

Il est difficile d'énoncer une règle stricte ici. La balise de prononciation permet de spécifier si un mot a été prononcé de manière peu standard, l'interprétation du standard dépendant évidemment du transcripteur. On peut utiliser la balise de prononciation aussi pour n'importe quel autre commentaire relatif à la prononciation d'un mot (par exemple le marquage du -euh typique en fin de mot de l'accent parisien).

2.6. Bruits et conditions acoustiques

Parmi les bruits on peut trouver de la parole ne correspondant pas à des mots proprement dits de la langue (mots tronqués, erronés, ... dont le cas est traité dans les conventions de transcription), des bruits émis par le locuteur (par son appareil phonatoire, mais qui ne sont pas de la parole, et donc dans la plupart des cas non-superposés à la parole : bruits de bouche, de gorge, toux, respirations) ou bien des bruits produits par des sources différentes de l'appareil phonatoire du locuteur. Ces derniers bruits sont plus gênants parce qu'ils se superposent en général à la parole, dégradant ainsi la qualité du signal enregistré. Les sources de bruit peuvent être, sur le lieu d'enregistrement, le locuteur lui-même ou son environnement : bruits d'écouteur ou froissements de papiers en général produits par le locuteur pendant qu'il parle, conversations annexes, radio, télé, claquements de porte, horloge, bruits de voiture, ... Le système d'enregistrement radio-télédiffusé peut également générer des bruits : bruits de micro, craquements de ligne téléphonique, bips, effet Larsen, raccrochement téléphone, ... Enfin certains bruits peuvent provenir du système de diffusion (parasites) ou d'enregistrement (souffle électrique).

2.6.1. Comment noter les bruits ?

Pour les bruits instantanés ou de courte durée, le transcripteur crée une balise de bruit par [Edition]/[Insérer une balise]/[Bruit instantané] ou Control-d, et indique :

la catégorie de la balise - un bruit, une balise de prononciation, d'annotation lexicale, de changement de langue, ou un commentaire.
la description du bruit ou de l'événement par une chaîne de caractères ; des valeurs prédéfinies sont proposées dans un menu.
l'étendue de la balise - balise instantanée, de début ou de fin, ou encore appliquée au mot précédent ou suivant.

Par défaut, les balises de bruit sont affichées entre crochets. Si le bruit s'étend sur plusieurs mots on peut sélectionner les mots et insérer une balise ; les marqueurs de début et de fin seront automatiquement insérés autour.

Si le bruit advient entre deux mots le code est affiché comme un mot, c'est-à-dire séparé des mots voisins par des blancs : parole1 [b] parole2
Si le bruit se superpose au mot précédent ou suivant, à l'affichage le code correspondant est accolé au mot avec le caractère + (mais le transcripteur n'a pas à taper ce caractère)
Affichage : parole+[b]
Si le bruit se superpose à plusieurs mots, des marqueurs de début et de fin seront utilisés.
Affichage : parole1 [b-] parole2 [-b] parole3
le bruit de type [b] commence avant parole2 et se termine avant parole3.

Pour les bruits de longue durée, une autre procédure est détaillée plus loin (paragraphe 2.6.4).

2.6.2. Bruits de l'appareil phonatoire (non-parole)

Ici nous considérons des bruits produits par l'appareil phonatoire du locuteur enregistré : en général ces bruits ne se superposent pas à la parole, sauf quand la personne parle en chuchotant ou en rigolant : je+[rire] voudrais+[rire] (on peut utiliser aussi des marqueurs de début et de fin : [rire-] je voudrais [-rire]).

Pour ne pas trop compliquer la tâche du transcripteur (à identifier la nature exacte du bruit) les codes de bruit marqués en gras sont à utiliser par défaut pour un type de bruit donné. Si le transcripteur a envie de marquer plus particulièrement un bruit donné, il peut choisir un des codes proposés en retrait de la marge ; cependant, ces différences ne sont actuellement pas exploitées.

Suggestion : le transcripteur peut accompagner les codes de bruit de balises temporelles de synchronisation (afin de poser un repère pour la segmentation automatique).

Respiration

[r] : respiration

acte physiologique :
- [i] : inspiration
- [e] : expiration
- [n] : reniflement
acte volontaire :
- [pf] : souffle (on entend par souffle un acte de respiration volontairement bruyant pour marquer son désaccord ou sa mauvaise humeur, pour retenir un rire, ...)

Autres bruits de bouche et de gorge

[bb] : bruit de bouche (ce code regroupe les bruits de lèvres, de langue ou autre combinaison, ...)
- [tx] : toux, râclement de gorge, éternuement
- [bg] : bruit de gorge (par exemple coup de glotte, bruit de larynx )
- [rire] : rires du locuteur
- [sif] : sifflement du locuteur
- [ch] : le locuteur se parle en voix chuchotée pour faire un commentaire
  [ch-] voix chuchotée [-ch]

2.6.3. Bruits extérieurs à l'acte de parole

Nous regroupons dans cette section tous les bruits produits en dehors de l'appareil phonatoire du locuteur. La plupart de ces bruits peuvent se produire à n'importe quel instant de l'enregistrement, et peuvent donc se superposer au signal de parole, dégradant ainsi sa qualité.

Tout bruit de nature indéterminée ou non-répertorié dans ce document peut être noté comme suit :

[b] : bruit indéterminé

Bruits dus à l'environnement et au matériel d'enregistrement

[conv] : conversations dans le fond : il peut s'agir de personnes présentes, de public, de voitures, ...
[pap] : froissement de papiers.
[mic] : bruits micros.

2.6.4. Changement de conditions acoustiques

Lorsqu'un bruit s'étend sur une longue durée (bruit de fond persistant), un système de marquage spécifique doit être utilisé. La balise de bruit de fond est une balise instantanée décrivant un changement durable ans les conditions acoustiques. L'information apportée par cette balise reste valable à l'intérieur d'un même enregistrement jusqu'à l'apparition d'une nouvelle balise de bruit de fond, ou bien jusqu'à la fin de l'enregistrement.

Le transcripteur positionne le curseur temporel à l'instant du changement de conditions acoustiques, choisit [Segmentation]/[Insérer un bruit de fond] et indique :

la nature : musique, parole ou conversations, bruit électrique, autre...

Une icône de note de musique apparaît dans le texte à la position courante.

Si le changement de conditions acoustiques est associé aux conditions d'enregistrement et lié au tour de parole (par exemple, une intervention téléphonique de très mauvaise qualité), il sera plus pratique d'utiliser le champ Fidelité=low dans les paramètres du tour de parole [Segmentation]/[Paramètres du tour...] , plutôt que la balise de bruit de fond.

2.7. Commentaires

Cette balise permet au transcripteur de commenter l'enregistrement (la parole ou les conditions acoustiques ) à transcrire. Le transcripteur peut également faire ici des remarques sur ce qui lui paraît utile pour faciliter la transcription.

3. Conventions de transcription

Concernant la transcription l'idée de base consiste à focaliser l'attention sur ce qui apparaît en premier plan. Si de multiples sources sonores sont présentes il convient de focaliser la transcription sur la source la plus émergente. Par exemple on entend en arrière-plan une personnalité parler une langue étrangère, un traducteur donnant la version française en premier plan. Il suffit de transcrire le traducteur en signalant de la parole en bruit de fond. On entend de la musique en premier plan avec des commentaires en arrière-plan. On peut annoter un tel segment comme musique avec comme bruit de fond de la parole (non transcrite). Si deux locuteurs se 'disputent' le premier plan, on transcrit les deux grâce au mécanisme de parole superposée. Cependant de manière générale on fait l'hypothèse qu'il n'y a qu'une source sonore unique au premier plan.

De manière générale, dans tous les segments de parole qui ont été annotés transcribed (sections report ou filler), tout ce qui est entendu doit être transcrit : la transcription doit fournir la séquence orthographique exacte correspondant à ce que le locuteur a prononcé, à laquelle il faut rajouter dans la mesure du possible tous les événements extra-lexicaux présents dans le signal acoustique (les répétitions, hésitations, troncatures, bruits).

3.1. Conventions d'écriture

Le produit de la transcription est essentiellement une séquence de mots séparés par des espaces, entre lesquels s'intercalent des balises identifiant les bruits, les conditions acoustiques et diverses informations permettant de lever l'ambiguïté de prononciation. Autant que possible, il convient de respecter l'orthographe standard des mots. La ponctuation sert à marquer les frontières syntaxiques et prosodiques claires.

Dans la suite les icônes représentent :

= le locuteur dit
= le transcripteur écrit

3.1.1. Majuscules/minuscules

Tout est transcrit en minuscules (pas de majuscule systématique en début de phrase). L'emploi des majuscules est réservé à la transcription des épellations et des sigles, au début des noms propres et dans des formules de politesse.

Pour les noms propres d'organisation assimilables à des marques (tels que les journaux, les banques...) et utilisant des noms communs, les noms communs en question sont écrits avec des initiales majuscules.

as-tu lu Le Monde, L'Humanité et Le Dimanche ...
les journalistes du Monde, de L'Humanité et du Dimanche ...
au Crédit Lyonnais

Dans le doute, on peut suivre la pratique des journeaux qui peuvent ne mettre en majuscules que le premier mot d'un sigle :

le Front national est au bord de l'implosion

Pour les noms de lieux on adopte la convention d'écrire en minuscule le nom commun. S'il est suivi d'un nom propre, celui-ci a évidemment son initiale en majuscule.

le lycée Anatole France
l'opéra Garnier

Des mots communs ayant fonction de nom propre (par exemple : titres d'émissions, de films, de livre, d'institutions ) s'écrivent entre guillemets. À l'intérieur des guillemets les noms communs sont écrits en minuscules.

Par exemple :

"le téléphone sonne" de ce soir sera consacré à "la chaîne de l'espoir"
"le monde d'est en ouest et du nord au sud" sur France-Inter
"regards sur le monde" , Dominique Bromberger bonjour !
bienvenue à "radio com , c'est vous"
aux Etats-Unis , le "Monica gate" continue
euh , je préfère "Tomb raider"
le chanteur de "divine comédie"
des associations comme "médecins du monde"
le prix Louis-Delluc pour Cédric Kahn et son film "l'ennui"
sortie aujourd'hui de "à la place du coeur" de Robert Guédiguian 
un bel exemple de Le Clézio dans "la fièvre"
"neuf mois marathon" , Marie-Cécile Picquet , aux éditions "hors commerce"
une grande opération "mains propres" a été lancée
le "conseil économique et social"
ils ont gagné la "terre promise"

Pour les sigles étendus (c'est-à-dire prononcés en toutes lettres) la suite de mots composant le sigle est entourée de guillemets. Les noms communs y sont écrits en minuscules.

le "fond monétaire international" a fonctionné
le "commissariat à l'énergie atomique"
l'"agence France presse"

Enfin, on met une majuscule à monsieur (ainsi qu'à madame, mademoiselle ...) dans les formules de politesse comme indiqué dans l'exemple :

est-il vrai Monsieur le préfet que, ...

mais

```
le monsieur qui ...
```

3.1.2. Ponctuations

Il est recommandé de mettre des marques de ponctuation là où il y a des pauses dans le signal qui correspondent à des frontières syntaxiques, ou bien dans le cas où l'absence de ponctuation engendre une ambiguïté dans le texte.

Attention : il faut précéder les signes de ponctuations d'un blanc.

les fleurs sont fanées , le pain est devenu sec .

Les marqueurs de ponctuations sont indicateurs du mode de l'énoncé :
conclusif ''.'', interrogatif ``?'', exclamatif ``!'', hésitation ``...'', etc.
Ces informations sont fortement liées à la prosodie et à la compréhension. Il est recommandé d'accompagner les marques de ponctuation forte (. ? !) d'une marque temporelle dans le signal (balise de synchronisation , permettant de segmenter).

3.1.3. Apostrophe

Il n'y a pas de séparateur entre l'apostrophe et le mot suivant.

```
l'horaire
l'arrivée
jusqu'à
```

3.1.4. Trait d'union

Les mots liés par un trait d'union sont écrits normalement sans séparation par un blanc.

```
après-midi
voulez-vous
anglo-saxons
```

Attention : on ne relie pas par trait d'union les suites de noms propres. On peut marquer graphiquement le lien par un slash entouré de blancs.

dans le Nord /Pas-de-Calais le trajet Paris/ Toulouse

3.1.5. Sigles

Par défaut : les sigles sont notés par des majuscules non séparés par des blancs.

s n c f
SNCF
otan
OTAN
ina p g
INA PG

La distinction entre un sigle prononcé comme un mot et un sigle prononcé comme une suite de lettres se fera par la balise de prononciation, uniquement dans les cas d'ambiguïté (dans l'exemple qui suit, les caractères gras correspondent à l'affichage de la balise ; le transcripteur la produit avec [Edition] / [Insérer une balise]/ [Prononciation] ou Alt-= puis en sélectionnant les options appropriées).

l' ami ou l'a m i , c'est selon
l'AMI +[prononciation=lu] ou l'AMI +[prononciation=épelé] , c'est selon

On peut observer des expressions complexes composées de sigles et de mots ou de fragments de mots (acronymes,...), par exemple :

JCSat +[prononciation=J S sat] , RMIste , SMICard , PACSer

3.1.6. Abréviations

Il existe dans la langue des abréviations standards comme etc pour et caetera. Les transcripteurs utilisent etc sans point accolé.

et caetera
etc

okay
OK

3.1.7. Nombres

Les nombres sont transcrits sous forme de suite de chiffres si la prononciation correspond à la syntaxe standard de prononciation des nombres (écrire la suite de mots est toujours autorisé, mais cela demande plus de travail et peut générer plus d'erreur de la part du transcripteur).

soixante mille
60000 ou bien 60 mille
soixante millions
60000000 ou bien 60 millions

Attention: il ne faut pas introduire d'espace entre les chiffres!

vingt virgule cinquante-sept
20,57 ou bien 20 ,virgule 57
un franc cinquante
1 franc 50

Attention: il ne faut pas écrire: 1,50 francs !

cent cinquante-huit litres virgule neuf
158 litres ,virgule 9

3.1.8. Dates

Pour les dates dont la prononciation peut être ambiguë (dix-neuf cent ou mille neuf cent), on utilisera une balise de prononciation dans le cas non-standard.

mille neuf cent quatre-vingts
1980
dix-neuf cent quatre-vingts
1980 +[prononciation=19 cent...]

3.1.9. Chiffres romains

Ils peuvent être utilisés dans les noms de roi ou de pape (qui servent souvent à désigner des lieux publics ). La transcription se fait avec les chiffres romains, en ajoutant une balise de prononciation.

l'hôtel Charles cinq
l'hôtel Charles V+[prononciation=5]
le stade Louis deux
le stade Louis II +[prononciation=2]

3.1.10. Adresses internet

Pour les adresses internet (URL ou e-mail), la transcription se fait en notant l'adresse telle qu'elle s'écrit (habituellement tout en minuscules), et en ajoutant une balise de prononciation.

telsonne at radio tiret france point f r
telsonne@radio-france.fr+[prononciation=telsonne at radio tiret France point FR]

w w w point radio tiret france point f r
www.radio-france.fr+[prononciation=WWW point radio tiret France point FR]

3.2. Mots hors-lexique

3.2.1. Mots d'origine étrangère, changement de langue

Une balise de changement de langue permet d'identifier un mot ou une suite de mots qui ne font pas partie du parler français.

Les mots d'origine étrangère (et absorbés dans la langue avec une prononciation donnée) ne sont pas marqués (par exemple week-end, playstation, business prononcés à l'anglaise). On considère ces prononciations comme ``standard''.

En revanche des prononciations peu communes devront être signalées (par exemple les correspondants à l'étranger démarrant leur intervention par buon giorno di Roma, good morning from London... ).

échangeant des potins [langue=anglais-] cashing up with gossip [-langue=anglais]
ça s'appelle l'[langue=anglais-] easy listening[-langue=anglais]
cela reviendra à légaliser le sabouba +[langue=arabe]

Il est inutile d'ajouter un marqueur d'orthographe incertaine aux mots étrangers, même si la transcription est simplement acoustique. Un segment de longue durée en langue étrangère doit être annoté non-trans.

3.2.2. Noms propres étrangers

Les noms propres Beatles, Clinton, les sigles CNN, CBS prononcés à l'anglaise correspondent au standard ; à l'inverse une prononciation à la française inhabituelle doit être spécifiée par une balise de prononciation :

Bill Clinton , en français Guillaume Clinton +[prononciation=français]

Pour des noms propres comme Morgan le standard dépend évidemment du contexte (Michèle Morgan ou Nelson Morgan par exemple). Mais pour des noms propres comme Benjamin, le contexte peut ne pas être suffisant : Benjamin Netanyahou peut admettre différentes prononciations.

3.2.3. Mots techniques, nouveaux mots, noms propres inconnus

Cette section concerne les problèmes d'écriture qui se posent pour des néologismes, entités idiosyncrasiques, des mots techniques .

Dans un contexte particulier des mots nouveaux peuvent apparaître. Ces mots ne font pas partie du vocabulaire de la langue courante, et sont souvent ignorés des gens extérieurs à ce domaine particulier. Ceci est vrai pour des domaines techniques spécialisés, mais se rencontrent fréquemment aussi dans le milieu journalistique (par exemple le terme de pu-putch a été employé plusieurs fois début décembre 98). Ces mots sont à considérer comme des entités lexicales à part entière.

Lorsque l'orthographe se déduit sans ambiguïté, il suffit de l'écrire sans balise supplémentaire :

un télévirenquethon ? ça ne sonne pas très bien
le greige , quelque part entre gris et beige
la primature du chef est publiquement mise en cause

Des noms propres inconnus (souvent d'origine étrangère) peuvent admettre plusieurs graphies en français. Afin de pouvoir normaliser ces graphies lors d'un traitement ultérieur, il est important de marquer les mots qui posent problèmes.

Règle : tous, mots techniques, mots idiosyncrasiques, noms propres dont la graphie est incertaine (non figée), seront précédés par deux accents circonflexes :

^^mot_inconnu

Exemples :

^^Annam ^^Lefebvre ^^Baranov ^^Tourner ^^Réresse ^^Micoine ^^Itaï ^^Arad ^^Mougins ^^Mossey ^Klipffel ^^Jaillard ^^Elina ^^Castella ^^Zwetaïeva ...

De manière équivalente, une balise de commentaire lexical peut être utilisée :

^^Guédet ou [lexical=orthographe incertaine]+Guédet

3.3. Spécificités du langage parlé

Lorsqu'on écoute attentivement le signal, on se rend compte que des parties de mots, voire des mots entiers peuvent avoir disparus.

On peut être tenté de marquer graphémiquement les réductions produites par le locuteur. La consigne à suivre ici est de respecter l'orthographe standard: ne pas marquer, dans l'écriture, l'élision ou la réduction présente dans la parole. On peut utiliser la balise de prononciation ou la balise de commentaire, si on veut décrire les phénomènes observés.

3.3.1. Onomatopées

Les onomatopées font partie de la langue et sont à transcrire au même titre que les autres mots. Les plus fréquentes existent en général en tant que mots graphémiques, pour toutes les autres on devra créer des mots correspondants et maintenir cette liste à jour.

euh , ben, eh, hein, ah, hum, oh, hé,
ouahou, huhum, hou, hop, aïe ...

Exemples :

euh on voit que les ... , ah , comment dire
et en fait euh bon ben
l'indice Nikkei et non pas Mickey hein ! 
eh bien , 
hé oh comme vous dites !
hou là là 
une étude sur le le hum ()
ouahou , chic alors !
on en parle plus , hop .

3.3.2. Répétitions

Les répétitions ne portent pas d'information et on tenterait naturellement de les éliminer dans un processus de transcription d'une dictée. Elles doivent être transcrites comme tout autre mot.

```
le le le député ...
```

3.3.3. Elisions & formes réduites

La réduction peut porter sur un seul mot ou une suite de mots, par exemple:

orches' de chambre | s'i 'ous plaît | qu'i soit | dans c' domaine
orchestre de chambre | s'il vous plaît | qu'il soit | dans ce domaine

Remarque: La réduction de qu'il en qu'i' est transcrite qu'il et non pas qui.

Autres exemples:

i' y a ou bien y a
il y a ou bien (il) y a

On peut écrire (il) y a si le il est absent de manière évidente. Mais nous tenons à souligner qu'il est inutile de faire des écoutes répétées pour décider si le il est présent ou non.

Dans le langage parlé le ne de la négation est très souvent omis. Dans ce cas on ne l'écrit pas.

j'en sais rien
j'en sais rien

chais pas ou bien chsais pas ou bien ...
je sais pas ou bien je (ne) sais pas

mais y a pas d' raison qu'i' soit pas là
mais il y a pas de raison qu'il soit pas là
ou bien mais (il n') y a pas de raison qu'il (ne) soit pas là

3.3.4. Troncatures

Les mots tronqués peuvent provenir de deux origines différentes : soit le locuteur s'arrête avant la fin du mot, soit le locuteur est coupé par le système d'enregistrement. Dans ce dernier cas le mot peut être tronqué au début : le locuteur a commencé à parler avant le début de l'enregistrement. La troncature est marquée par des parenthèses. Si le mot tronqué est connu (grâce au contexte) on note la partie manquante du mot entre parenthèses.

notation : ()

vou() : troncature finale de voudrais, voulais,...
()embre : troncature initiale de septembre, novembre, décembre,...
après-de(main) : le mot complet peut être déduit du contexte

3.3.5. Lapsus

Il arrive que la prononciation erronée soit un mot correct de la langue. Dans ce cas, on transcrit les mots tel qu'ils ont été prononcés.

une augmentation conséquence euh conséquente
une augmentation conséquence euh conséquente

3.3.6. Prononciation erronée

Si on arrive à identifier le mot mal prononcé, on écrit le mot correct précédé d'une étoile.

notation : *mot-correct

pestacle
*spectacle

La prononciation effective peut être signalée par une balise :

rénumération
rémunération+[pronounce=rénumération]

S'il s'agit de parole inintelligible, on utilise la notation suivante :
notation : [pi]

Si la parole est inintelligible parce qu'il s'agit de parole inaudible et faible, on peut noter ce type d'événement, si on veut la différencier du cas ci-dessus, par :
notation : [pif]

Le transcripteur est invité à insérer une balise de synchronisation près du mot (juste après le mot) mal prononcé (afin de poser un repère pour la segmentation automatique dans cette zone erronée).

3.3.7. Liaisons

On ne marque pas les liaisons dans la transcription orthographique. Les liaisons erronées sont relevées par la balise de prononciation.

vingt-z-animaux
vingt+[prononciation=vingt-z]animaux
trop-z ennuyeux il voudrait-z y aller
trop+[prononciation=trop-z]ennuyeux il voudrait y aller

3.3.8. Épellations

Toutes les lettres sont notées en majuscules séparées par des blancs, p. ex :
P A R I S
L'épellation des lettres accentuées peut conduire à différentes transcriptions, suivant l'énoncé du locuteur, par exemple :

é accent aigu
É accent aigu
e accent aigu
E accent aigu

Remarque : l'épellation des lettres redoublées peut donner lieu à différentes transcriptions. Par exemple le locuteur doit épeler Vannes :

v a n n e s
V A N N E S
v a deux n e s
V A 2 N E S

3.3.9. Ponctuation verbalisée

Si un locuteur énonce la ponctuation (comme s'il faisait une dictée, verbalized punctuation) on écrit le mot correspondant préfixé avec le symbole de ponctuation.

cent-cinq point cinq
105 .point 5

4. Vérification

4.1. Comment vérifier la transcription ?

Ecoutez le signal tout en lisant la transcription. Stoppez et redémarrez aussi souvent que nécessaire. Utilisez de préférence la commande [Signal]/[Joue le segment] ou Shift-Tab.
La transcription est à modifier dans l'éditeur de texte. Dans une future version du logiciel, un correcteur orthographique devrait être disponible pour la correction des fautes d'orthographe (et plus généralement des fautes de frappe).
Les frontières des segments peuvent être déplacées ou supprimées
Les tours de paroles et les sections sont éditables en cliquant sur le bouton correspondant.
La correction orthographique est disponible par [Edition]/[Correction orthographique]