Conventions de transcription pour
les enregistrements radio-télédiffusés
mise à jour pour Transcriber 1.4.1
DGA/Limsi, juin 1999
2.5. Transcription orthographique
2.6. Bruits et conditions acoustiques
3.3. Spécificités du langage parlé
La création manuelle de transcriptions d'enregistrements de journaux radio- ou télédiffusés, permet de faire avancer les recherches en transcription automatique, en indexation et en archivage de ce type de documents sonores.
Les enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite, une grande diversité de locuteurs et de thèmes abordés. Plusieurs personnes peuvent intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée de tels enregistrements peut varier de quelques dizaines de minutes à plusieurs heures.
Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash, revue de presse, incluant météo et bourse, économie, faits de société ...) dans le document sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions....) ne sera pas transcrite.
Nous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations. La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la transcription proprement dite. La transcription est ici la partie la plus importante et donc sur laquelle le maximum d'attention doit être porté.
Les différentes étapes du travail de transcription sont : la segmentation de la bande son, l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques, la transcription orthographique, et la vérification. Ces étapes peuvent être menées en parallèle ou au contraire appliquées séquentiellement sur de longues portion du signal, suivant le choix du transcripteur.
L'étape d'annotation vise à structurer les enregistrements, c'est-à-dire à segmenter et à décrire le signal acoustique à différents niveaux jugés pertinents pour le traitement ultérieur. Il s'agit ici principalement de l'identité du locuteur, de l'identification du contenu thématique, ou de la qualité du canal de transmission (acoustique).
Actuellement, un document de transcription est structuré de la manière la suivante :
Par la suite, pensez à enregistrer fréquemment votre travail avec [Fichier]/[Enregistrer] ou le raccourci Control-s, surtout si vous n'avez pas activé la sauvegarde automatique. Par ailleurs, un double affichage du signal (un avec une résolution de 10 secondes, l'autre de une minute environ) peut être pratique.
Les informations associées à un enregistrement, éditées avec [Fichiers]/[Paramètres de l'épisode], sont les suivantes :
Pour des enregistrements de même nature (par exemple sur plusieurs jours) il convient de respecter la même nomenclature pour des programmes identiques.
Pour fournir des repères temporels par rapport au signal, et pour faciliter le travail de transcription, on segmente le signal en insérant des balises temporelles instantanées de synchronisation (ou frontières).
Nous recommandons de faire correspondre ces balises à des groupes de souffle dans le signal ou à des marques de ponctuation dans le langage écrit. Pour des raisons techniques du traitement ultérieur il est également souhaitable de fournir une balise de synchronisation après différents types de problèmes au niveau acoustique (mots mal prononcés, bruit court superposé à un mot...).
En résumé, l'insertion d'une frontière de synchronisation est recommandé dans les situations suivantes :
Vous obtenez une segmentation grossière d'une partie du signal en intervalles de 5 à 20 secondes en moyenne. Il est possible de positionner les frontières plus précisément par la suite.
À ce niveau on décrit la succession de tours de parole avec les différents locuteurs qui interviennent.
A la création d'un tour, le locuteur proposé par défaut est l'avant-dernier utilisé, ce qui est pratique dans le cas d'un dialogue.
Pour chaque tour de parole le transcripteur indique :
et éventuellement si cela est demandé :
Pour chaque nouveau locuteur le transcripteur indique :
Il est important de respecter l'orthographe des noms. On peut trouver les noms des journalistes et des différentes émissions radio et télé français dans le guide MédiaSid.
On considère tout francophone (français, belge, suisse, québécois) de langue maternelle française.
Il faut distinguer différentes situations de parole superposée :
Dans le cas de parole simultanée avec deux locuteurs (cas numéro 3), le deuxième locuteur est identifié dans la fenêtre des paramètres du tour après avoir validé Parole superposée. L'affichage dans le logiciel est par exemple :
Patricia Martin + Invite1
1: évidemment découvert que
2: enfin n'oubliez pas
Dans la transcription, 1: va identifier les paroles (évidemment découvert que) du premier locuteur (Patricia Martin) et 2: les paroles (enfin n'oubliez pas) du deuxième locuteur Invite1. Les frontières au niveau du signal seront posées au niveau des frontières de mot, de sorte à inclure dans le segment ainsi découpé, toute la parole superposée (par exemple si le mot enfin du locuteur 2 ne démarre qu'à la fin du mot évidemment du locuteur 1, ce dernier est quand même inclus dans le segment).
Cependant la transcription de ce type de signal est très coûteuse. À l'heure actuelle on ne sait pas traiter de manière satisfaisante la parole superposée et les transcriptions, mêmes si elles sont produites, ne sont pas encore exploitées. Le transcripteur peut donc choisir de marquer simplement le signal comme parole superposée sans transcription, avec éventuellement un commentaire décrivant la situation ou le contenu du dialogue.
La structuration complète d'un enregistrement peut être complexe : une succession d'émissions, composées de sections journalistiques, subdivisées elles-mêmes en rubriques thématiques... En l'état actuel du logiciel, il faut choisir un seul niveau de découpage (en sections journalistiques ou en rubriques thématiques) et les frontières des segments ne sont pas toujours évidentes ; une structuration plus fine est envisagée pour l'avenir.
Un enregistrement peut contenir des segments sans intérêt pour le traitement automatique ultérieur. Les transcriptions sont limitées aux émissions d'information avec les messages d'introduction et de conclusion. Le reste sera annoté non-transcribed, c'est-à-dire inexploitable et ne sera pas transcrit.
Un enregistrement est découpé en sections de 3 types :
Nous abordons ici les problèmes de transcriptions des segments de parole. Ces conventions concernent d'abord la parole pour laquelle la transcription graphémique peut être ambiguë. Elles sont nécessaires ensuite pour coder les bruits, catégorie dans laquelle on regroupe tous les événements acoustiques non assimilables à des mots (ou entrées lexicales) de la langue.
La transcription graphémique doit permettre de prédire au mieux la prononciation du locuteur. Si une même séquence graphémique permet de générer différentes prononciations (typiquement les dates qu'on peut énoncer en utilisant mille et cent), on adoptera des conventions capables de lever l'ambiguïté. Les conventions concernent aussi les éléments de la langue pour lesquels la transcription n'est pas unique (typiquement les sigles et les épellations, ou encore les nombres qu'on peut écrire sous forme de séquence de chiffres ou comme séquence de mots). Dans tous les cas, les conventions adoptées visent à standardiser la forme graphémique attendue pour minimiser l'ambiguïté, éventuellement en utilisant des balises de prononciation. Les conventions n'étant pas exhaustives le transcripteur peut adopter par défaut une écriture telle qu'on peut la trouver dans des textes de journaux.
Les conventions de transcription sont détaillées dans la 3ème partie.
La balise de prononciation permet de rajouter par dessus une graphie à prononciation multiple (typiquement les nombres, les sigles/acronymes, noms propres) une description levant l'ambiguïté de la prononciation.
Il est difficile d'énoncer une règle stricte ici. La balise de prononciation permet de spécifier si un mot a été prononcé de manière peu standard, l'interprétation du standard dépendant évidemment du transcripteur. On peut utiliser la balise de prononciation aussi pour n'importe quel autre commentaire relatif à la prononciation d'un mot (par exemple le marquage du -euh typique en fin de mot de l'accent parisien).
Parmi les bruits on peut trouver de la parole ne correspondant pas à des mots proprement dits de la langue (mots tronqués, erronés, ... dont le cas est traité dans les conventions de transcription), des bruits émis par le locuteur (par son appareil phonatoire, mais qui ne sont pas de la parole, et donc dans la plupart des cas non-superposés à la parole : bruits de bouche, de gorge, toux, respirations) ou bien des bruits produits par des sources différentes de l'appareil phonatoire du locuteur. Ces derniers bruits sont plus gênants parce qu'ils se superposent en général à la parole, dégradant ainsi la qualité du signal enregistré. Les sources de bruit peuvent être, sur le lieu d'enregistrement, le locuteur lui-même ou son environnement : bruits d'écouteur ou froissements de papiers en général produits par le locuteur pendant qu'il parle, conversations annexes, radio, télé, claquements de porte, horloge, bruits de voiture, ... Le système d'enregistrement radio-télédiffusé peut également générer des bruits : bruits de micro, craquements de ligne téléphonique, bips, effet Larsen, raccrochement téléphone, ... Enfin certains bruits peuvent provenir du système de diffusion (parasites) ou d'enregistrement (souffle électrique).
Pour les bruits instantanés ou de courte durée, le transcripteur crée une balise de bruit par [Edition]/[Insérer une balise]/[Bruit instantané] ou Control-d, et indique :
Par défaut, les balises de bruit sont affichées entre crochets. Si le bruit s'étend sur plusieurs mots on peut sélectionner les mots et insérer une balise ; les marqueurs de début et de fin seront automatiquement insérés autour.
Pour les bruits de longue durée, une autre procédure est détaillée plus loin (paragraphe 2.6.4).
Ici nous considérons des bruits produits par l'appareil phonatoire du locuteur enregistré : en général ces bruits ne se superposent pas à la parole, sauf quand la personne parle en chuchotant ou en rigolant : je+[rire] voudrais+[rire] (on peut utiliser aussi des marqueurs de début et de fin : [rire-] je voudrais [-rire]).
Pour ne pas trop compliquer la tâche du transcripteur (à identifier la nature exacte du bruit) les codes de bruit marqués en gras sont à utiliser par défaut pour un type de bruit donné. Si le transcripteur a envie de marquer plus particulièrement un bruit donné, il peut choisir un des codes proposés en retrait de la marge ; cependant, ces différences ne sont actuellement pas exploitées.
Suggestion : le transcripteur peut accompagner les codes de bruit de balises temporelles de synchronisation (afin de poser un repère pour la segmentation automatique).
Nous regroupons dans cette section tous les bruits produits en dehors de l'appareil phonatoire du locuteur. La plupart de ces bruits peuvent se produire à n'importe quel instant de l'enregistrement, et peuvent donc se superposer au signal de parole, dégradant ainsi sa qualité.
Tout bruit de nature indéterminée ou non-répertorié dans ce document peut être noté comme suit :
Bruits dus à l'environnement et au matériel d'enregistrement
Lorsqu'un bruit s'étend sur une longue durée (bruit de fond persistant), un système de marquage spécifique doit être utilisé. La balise de bruit de fond est une balise instantanée décrivant un changement durable ans les conditions acoustiques. L'information apportée par cette balise reste valable à l'intérieur d'un même enregistrement jusqu'à l'apparition d'une nouvelle balise de bruit de fond, ou bien jusqu'à la fin de l'enregistrement.
Le transcripteur positionne le curseur temporel à l'instant du changement de conditions acoustiques, choisit [Segmentation]/[Insérer un bruit de fond] et indique :
Une icône de note de musique apparaît dans le texte à la position courante.
Si le changement de conditions acoustiques est associé aux conditions d'enregistrement et lié au tour de parole (par exemple, une intervention téléphonique de très mauvaise qualité), il sera plus pratique d'utiliser le champ Fidelité=low dans les paramètres du tour de parole [Segmentation]/[Paramètres du tour...] , plutôt que la balise de bruit de fond.
Cette balise permet au transcripteur de commenter l'enregistrement (la parole ou les conditions acoustiques ) à transcrire. Le transcripteur peut également faire ici des remarques sur ce qui lui paraît utile pour faciliter la transcription.
Concernant la transcription l'idée de base consiste à focaliser l'attention sur ce qui apparaît en premier plan. Si de multiples sources sonores sont présentes il convient de focaliser la transcription sur la source la plus émergente. Par exemple on entend en arrière-plan une personnalité parler une langue étrangère, un traducteur donnant la version française en premier plan. Il suffit de transcrire le traducteur en signalant de la parole en bruit de fond. On entend de la musique en premier plan avec des commentaires en arrière-plan. On peut annoter un tel segment comme musique avec comme bruit de fond de la parole (non transcrite). Si deux locuteurs se 'disputent' le premier plan, on transcrit les deux grâce au mécanisme de parole superposée. Cependant de manière générale on fait l'hypothèse qu'il n'y a qu'une source sonore unique au premier plan.
De manière générale, dans tous les segments de parole qui ont été annotés transcribed (sections report ou filler), tout ce qui est entendu doit être transcrit : la transcription doit fournir la séquence orthographique exacte correspondant à ce que le locuteur a prononcé, à laquelle il faut rajouter dans la mesure du possible tous les événements extra-lexicaux présents dans le signal acoustique (les répétitions, hésitations, troncatures, bruits).
Le produit de la transcription est essentiellement une séquence de mots séparés par des espaces, entre lesquels s'intercalent des balises identifiant les bruits, les conditions acoustiques et diverses informations permettant de lever l'ambiguïté de prononciation. Autant que possible, il convient de respecter l'orthographe standard des mots. La ponctuation sert à marquer les frontières syntaxiques et prosodiques claires.
Dans la suite les icônes représentent :
= le locuteur dit
= le transcripteur écrit
Tout est transcrit en minuscules (pas de majuscule systématique en début de phrase). L'emploi des majuscules est réservé à la transcription des épellations et des sigles, au début des noms propres et dans des formules de politesse.
Pour les noms propres d'organisation assimilables à des marques (tels que les journaux, les banques...) et utilisant des noms communs, les noms communs en question sont écrits avec des initiales majuscules.
as-tu lu Le Monde, L'Humanité et Le Dimanche ... les journalistes du Monde, de L'Humanité et du Dimanche ... au Crédit Lyonnais
Dans le doute, on peut suivre la pratique des journeaux qui peuvent ne mettre en majuscules que le premier mot d'un sigle :
le Front national est au bord de l'implosion
Pour les noms de lieux on adopte la convention d'écrire en minuscule le nom commun. S'il est suivi d'un nom propre, celui-ci a évidemment son initiale en majuscule.
le lycée Anatole France l'opéra Garnier
Des mots communs ayant fonction de nom propre (par exemple : titres d'émissions, de films, de livre, d'institutions ) s'écrivent entre guillemets. À l'intérieur des guillemets les noms communs sont écrits en minuscules.
Par exemple :
"le téléphone sonne" de ce soir sera consacré à "la chaîne de l'espoir" "le monde d'est en ouest et du nord au sud" sur France-Inter "regards sur le monde" , Dominique Bromberger bonjour ! bienvenue à "radio com , c'est vous" aux Etats-Unis , le "Monica gate" continue euh , je préfère "Tomb raider" le chanteur de "divine comédie" des associations comme "médecins du monde" le prix Louis-Delluc pour Cédric Kahn et son film "l'ennui" sortie aujourd'hui de "à la place du coeur" de Robert Guédiguian un bel exemple de Le Clézio dans "la fièvre" "neuf mois marathon" , Marie-Cécile Picquet , aux éditions "hors commerce" une grande opération "mains propres" a été lancée le "conseil économique et social" ils ont gagné la "terre promise"
Pour les sigles étendus (c'est-à-dire prononcés en toutes lettres) la suite de mots composant le sigle est entourée de guillemets. Les noms communs y sont écrits en minuscules.
le "fond monétaire international" a fonctionné le "commissariat à l'énergie atomique" l'"agence France presse"
Enfin, on met une majuscule à monsieur (ainsi qu'à madame, mademoiselle ...) dans les formules de politesse comme indiqué dans l'exemple :
est-il vrai Monsieur le préfet que, ...
mais
le monsieur qui ...
Il est recommandé de mettre des marques de ponctuation là où il y a des pauses dans le signal qui correspondent à des frontières syntaxiques, ou bien dans le cas où l'absence de ponctuation engendre une ambiguïté dans le texte.
Attention : il faut précéder les signes de ponctuations d'un blanc.
les fleurs sont fanées , le pain est devenu sec .
Les marqueurs de ponctuations sont indicateurs du mode de l'énoncé
:
conclusif ''.'', interrogatif ``?'', exclamatif ``!'', hésitation
``...'', etc.
Ces informations sont fortement liées à la prosodie et à
la compréhension. Il est recommandé d'accompagner les marques
de ponctuation forte (. ? !) d'une marque temporelle dans le signal (balise
de synchronisation , permettant de segmenter).
Il n'y a pas de séparateur entre l'apostrophe et le mot suivant.
l'horaire l'arrivée jusqu'à
Les mots liés par un trait d'union sont écrits normalement sans séparation par un blanc.
après-midi voulez-vous anglo-saxons
Attention : on ne relie pas par trait d'union les suites de noms propres. On peut marquer graphiquement le lien par un slash entouré de blancs.
dans le Nord / Pas-de-Calais
le trajet Paris / Toulouse
Par défaut : les sigles sont notés par des majuscules non séparés par des blancs.
s n c f
SNCF
otan
OTAN
ina p g
INA PG
La distinction entre un sigle prononcé comme un mot et un sigle prononcé comme une suite de lettres se fera par la balise de prononciation, uniquement dans les cas d'ambiguïté (dans l'exemple qui suit, les caractères gras correspondent à l'affichage de la balise ; le transcripteur la produit avec [Edition] / [Insérer une balise]/ [Prononciation] ou Alt-= puis en sélectionnant les options appropriées).
l' ami ou l'a m i , c'est selon
l'AMI +[prononciation=lu] ou l'AMI +[prononciation=épelé] , c'est selon
On peut observer des expressions complexes composées de sigles et de mots ou de fragments de mots (acronymes,...), par exemple :
JCSat +[prononciation=J S sat] , RMIste , SMICard , PACSer
Il existe dans la langue des abréviations standards comme etc pour et caetera. Les transcripteurs utilisent etc sans point accolé.
et caetera
etc
okay
OK
Les nombres sont transcrits sous forme de suite de chiffres si la prononciation correspond à la syntaxe standard de prononciation des nombres (écrire la suite de mots est toujours autorisé, mais cela demande plus de travail et peut générer plus d'erreur de la part du transcripteur).
soixante mille
60000 ou bien 60 mille
soixante millions
60000000 ou bien 60 millions
Attention: il ne faut pas introduire d'espace entre les chiffres!
vingt virgule cinquante-sept
20,57 ou bien 20 ,virgule 57
un franc cinquante
1 franc 50
Attention: il ne faut pas écrire: 1,50 francs !
cent cinquante-huit litres virgule neuf
158 litres ,virgule 9
Pour les dates dont la prononciation peut être ambiguë (dix-neuf cent ou mille neuf cent), on utilisera une balise de prononciation dans le cas non-standard.
mille neuf cent quatre-vingts
1980
dix-neuf cent quatre-vingts
1980 +[prononciation=19 cent...]
Ils peuvent être utilisés dans les noms de roi ou de pape (qui servent souvent à désigner des lieux publics ). La transcription se fait avec les chiffres romains, en ajoutant une balise de prononciation.
l'hôtel Charles cinq
l'hôtel Charles V +[prononciation=5]
le stade Louis deux
le stade Louis II +[prononciation=2]
Pour les adresses internet (URL ou e-mail), la transcription se fait en notant l'adresse telle qu'elle s'écrit (habituellement tout en minuscules), et en ajoutant une balise de prononciation.
telsonne at radio tiret france point f r
telsonne@radio-france.fr+[prononciation=telsonne at radio tiret France point FR]
w w w point radio tiret france point f r
www.radio-france.fr+[prononciation=WWW point radio tiret France point FR]
Une balise de changement de langue permet d'identifier un mot ou une suite de mots qui ne font pas partie du parler français.
Les mots d'origine étrangère (et absorbés dans la langue avec une prononciation donnée) ne sont pas marqués (par exemple week-end, playstation, business prononcés à l'anglaise). On considère ces prononciations comme ``standard''.
En revanche des prononciations peu communes devront être signalées (par exemple les correspondants à l'étranger démarrant leur intervention par buon giorno di Roma, good morning from London... ).
échangeant des potins [langue=anglais-] cashing up with gossip [-langue=anglais]
ça s'appelle l'[langue=anglais-] easy listening [-langue=anglais]
cela reviendra à légaliser le sabouba +[langue=arabe]
Il est inutile d'ajouter un marqueur d'orthographe incertaine aux mots étrangers, même si la transcription est simplement acoustique. Un segment de longue durée en langue étrangère doit être annoté non-trans.
Les noms propres Beatles, Clinton, les sigles CNN, CBS prononcés à l'anglaise correspondent au standard ; à l'inverse une prononciation à la française inhabituelle doit être spécifiée par une balise de prononciation :
Bill Clinton , en français Guillaume Clinton +[prononciation=français]
Pour des noms propres comme Morgan le standard dépend évidemment du contexte (Michèle Morgan ou Nelson Morgan par exemple). Mais pour des noms propres comme Benjamin, le contexte peut ne pas être suffisant : Benjamin Netanyahou peut admettre différentes prononciations.
Cette section concerne les problèmes d'écriture qui se posent pour des néologismes, entités idiosyncrasiques, des mots techniques .
Dans un contexte particulier des mots nouveaux peuvent apparaître. Ces mots ne font pas partie du vocabulaire de la langue courante, et sont souvent ignorés des gens extérieurs à ce domaine particulier. Ceci est vrai pour des domaines techniques spécialisés, mais se rencontrent fréquemment aussi dans le milieu journalistique (par exemple le terme de pu-putch a été employé plusieurs fois début décembre 98). Ces mots sont à considérer comme des entités lexicales à part entière.
Lorsque l'orthographe se déduit sans ambiguïté, il suffit de l'écrire sans balise supplémentaire :
un télévirenquethon ? ça ne sonne pas très bien
le greige , quelque part entre gris et beige
la primature du chef est publiquement mise en cause
Des noms propres inconnus (souvent d'origine étrangère) peuvent admettre plusieurs graphies en français. Afin de pouvoir normaliser ces graphies lors d'un traitement ultérieur, il est important de marquer les mots qui posent problèmes.
Règle : tous, mots techniques, mots idiosyncrasiques, noms propres dont la graphie est incertaine (non figée), seront précédés par deux accents circonflexes :
^^mot_inconnu
Exemples :
^^Annam ^^Lefebvre ^^Baranov ^^Tourner ^^Réresse ^^Micoine ^^Itaï ^^Arad ^^Mougins ^^Mossey ^Klipffel ^^Jaillard ^^Elina ^^Castella ^^Zwetaïeva ...
De manière équivalente, une balise de commentaire lexical peut être utilisée :
^^Guédet ou [lexical=orthographe incertaine]+Guédet
Lorsqu'on écoute attentivement le signal, on se rend compte que des parties de mots, voire des mots entiers peuvent avoir disparus.
On peut être tenté de marquer graphémiquement les réductions produites par le locuteur. La consigne à suivre ici est de respecter l'orthographe standard: ne pas marquer, dans l'écriture, l'élision ou la réduction présente dans la parole. On peut utiliser la balise de prononciation ou la balise de commentaire, si on veut décrire les phénomènes observés.
Les onomatopées font partie de la langue et sont à transcrire au même titre que les autres mots. Les plus fréquentes existent en général en tant que mots graphémiques, pour toutes les autres on devra créer des mots correspondants et maintenir cette liste à jour.
euh , ben, eh, hein, ah, hum, oh, hé, ouahou, huhum, hou, hop, aïe ...
Exemples :
euh on voit que les ... , ah , comment dire et en fait euh bon ben l'indice Nikkei et non pas Mickey hein ! eh bien , hé oh comme vous dites ! hou là là une étude sur le le hum () ouahou , chic alors ! on en parle plus , hop .
Les répétitions ne portent pas d'information et on tenterait naturellement de les éliminer dans un processus de transcription d'une dictée. Elles doivent être transcrites comme tout autre mot.
le le le député ...
La réduction peut porter sur un seul mot ou une suite de mots, par exemple:
orches' de chambre | s'i 'ous plaît | qu'i soit | dans c' domaine
orchestre de chambre | s'il vous plaît | qu'il soit | dans ce domaine
Remarque: La réduction de qu'il en qu'i' est transcrite qu'il et non pas qui.
Autres exemples:
i' y a ou bien y a
il y a ou bien (il) y a
On peut écrire (il) y a si le il est absent de manière évidente. Mais nous tenons à souligner qu'il est inutile de faire des écoutes répétées pour décider si le il est présent ou non.
Dans le langage parlé le ne de la négation est très souvent omis. Dans ce cas on ne l'écrit pas.
j'en sais rien
j'en sais rien
chais pas ou bien chsais pas ou bien ...
je sais pas ou bien je (ne) sais pas
mais y a pas d' raison qu'i' soit pas là
mais il y a pas de raison
qu'il soit pas là
ou bien mais (il n') y a pas de raison qu'il (ne) soit pas là
Les mots tronqués peuvent provenir de deux origines différentes : soit le locuteur s'arrête avant la fin du mot, soit le locuteur est coupé par le système d'enregistrement. Dans ce dernier cas le mot peut être tronqué au début : le locuteur a commencé à parler avant le début de l'enregistrement. La troncature est marquée par des parenthèses. Si le mot tronqué est connu (grâce au contexte) on note la partie manquante du mot entre parenthèses.
notation : ()
vou() : troncature finale de voudrais, voulais,...
()embre : troncature initiale de septembre, novembre, décembre,...
après-de(main) : le mot complet peut être déduit du contexte
Il arrive que la prononciation erronée soit un mot correct de la langue. Dans ce cas, on transcrit les mots tel qu'ils ont été prononcés.
une augmentation conséquence euh conséquente
une augmentation conséquence euh conséquente
Si on arrive à identifier le mot mal prononcé, on écrit le mot correct précédé d'une étoile.
notation : *mot-correct
pestacle
*spectacle
La prononciation effective peut être signalée par une balise :
rénumération
rémunération +[pronounce=rénumération]
S'il s'agit de parole inintelligible, on utilise la notation
suivante :
notation : [pi]
Si la parole est inintelligible parce qu'il s'agit de parole inaudible
et faible, on peut noter ce type d'événement, si on veut
la différencier du cas ci-dessus, par :
notation : [pif]
Le transcripteur est invité à insérer une balise de synchronisation près du mot (juste après le mot) mal prononcé (afin de poser un repère pour la segmentation automatique dans cette zone erronée).
On ne marque pas les liaisons dans la transcription orthographique. Les liaisons erronées sont relevées par la balise de prononciation.
vingt-z-animaux
vingt+[prononciation=vingt-z] animaux
trop-z ennuyeux il voudrait-z y aller
trop+[prononciation=trop-z] ennuyeux il voudrait y aller
Toutes les lettres sont notées en majuscules séparées
par des blancs, p. ex :
P A R I S
L'épellation des lettres accentuées peut conduire à
différentes transcriptions, suivant l'énoncé du locuteur,
par exemple :
é accent aigu
É accent aigu
e accent aigu
E accent aigu
Remarque : l'épellation des lettres redoublées peut donner lieu à différentes transcriptions. Par exemple le locuteur doit épeler Vannes :
v a n n e s
V A N N E S
v a deux n e s
V A 2 N E S
Si un locuteur énonce la ponctuation (comme s'il faisait une dictée, verbalized punctuation) on écrit le mot correspondant préfixé avec le symbole de ponctuation.
cent-cinq point cinq
105 .point 5