Stuttering is a speech disorder during which the flow of speech is interrupted by involuntary pauses and repetition of sounds. Stuttering identification is an interesting interdisciplinary domain ...research problem involving pathology, psychology, acoustics, and signal processing, making it hard and complicated to detect. Recent developments in the machine and deep learning have dramatically revolutionized the speech domain, however minimal attention has been given to stuttering identification. This work fills the gap by trying to bring researchers together from interdisciplinary fields. In this paper, we comprehensively review acoustic features, and statistical and deep learning-based stuttering/disfluency classification methods. We also present several challenges and possible future directions.
This study aims to describe the coarticulatory behaviour in stuttered speech from an articulatory point of view. Its purpose is to assess the nature of transitions between a stuttered phone and ...preceding and subsequent phones. Two persons who stutter were recorded by means of an electromagnetic articulograph while reading a text. The vertical movements of upper and lower lips, tongue body, tongue tip and mandible were extracted. They were then analysed during a stuttering moment and linked to the acoustic type of disfluency. Our findings showed several configurations of coarticulatory behaviour in terms of supraglottic articulatory movements. While disfluencies can be the result of a disrupted coarticulatory configuration, no systematicity has been found. Moreover, all acoustic types of disfluencies are represented in several coarticulatory configurations. Therefore, a stuttering-like disfluency is not always due to a coarticulatory disturbance, since correct coarticulatory patterns can be observed both between the disfluent sound and its previous and subsequent sounds. Furthermore, they suggest that the acoustic classification of disfluencies does not seem important for the coarticulatory behaviour.
Notre attention a été attirée par la récurrence, dans certaines émissions radiophoniques, d'exemples où la citation de titres interrogatifs est suivie par la profération du syntagme point ...d'interrogation. De telles verbalisations seraient-elles l'indice d'une évolution en cours du rôle de l'intonation dans le marquage de la modalité ? Constitueraient-elles une exception au principe de décondensation de certaines marques, notamment modales, vers l'amont du paragraphe intonatif ? Les résultats de l'analyse prosodique montrent que, même dans un contexte aussi complexe que celui de nos occurrences (discours radiophonique, interrogations nominales, îlots textuels), l'élévation de la fréquence fondamentale sur l'ensemble de l'énoncé, et particulièrement sur la syllabe finale, reste pour le moment un marqueur privilégié de l'interrogation totale. Selon les cotextes, ce marquage prosodique s'avère cependant plus ou moins saillant, et susceptible d'interagir de façon plus ou moins concordante ou discordante avec les marques segmentales. Parmi ces dernières, la verbalisation du point d'interrogation ne fonctionne pas comme un modus rejeté en aval, mais comme une des procédures par lesquelles le locuteur-énonciateur enchâssant d'un discours rapporté est susceptible d'asserter la modalité autre de l'énoncé qu'il enchâsse. Au stade actuel, la ponctuation verbalisée ne contredit donc pas la décondensation vers l'amont des marques modales.
Cette étude s’inscrit dans la continuité de nos travaux antérieurs portant sur les disfluences typiques du bégaiement. En effet, les recherches menées sur la nature des sons disfluents en parole ...spontané et en description d’images ont révélé que ce sont essentiellement les voyelles antérieures, les voyelles de grande aperture et les voyelles nasales qui posent le plus de problème aux personnes qui bégaient (désormais PQB) en français. En ce qui concerne les consonnes, les sujets testés présentaient des disfluences significativement plus importantes sur les consonnes non-voisées et les post-alvéolaires. Cette nouvelle étude vient donc compléter cette dernière en abordant l’environnement phonétique des sons disfluents. L’objectif de ce travail est de définir les traits articulatoires des sons qui composent l’environnement phonétique des phonèmes ayant été bégayés. Pour y parvenir nous avons utilisé des enregistrements audios réalisés auprès de locuteurs bègues francophones du Togo pendant une activité de description d’images. Les résultats mettent en évidence que les consonnes qui viennent avant et après une consonne disfluente ne sont pas forcément de même nature. Certaines catégories de sons augmenteraient le risque de bégaiement s’ils se placent avant ou après une consonne. Mots clés : Bégaiement, parole, phonétique
Cette étude s’inscrit dans la continuité de nos travaux antérieurs portant sur les disfluences typiques du bégaiement. En effet, les recherches menées sur la nature des sons disfluents en parole ...spontané et en description d’images ont révélé que ce sont essentiellement les voyelles antérieures, les voyelles de grande aperture et les voyelles nasales qui posent le plus de problème aux personnes qui bégaient (désormais PQB) en français. En ce qui concerne les consonnes, les sujets testés présentaient des disfluences significativement plus importantes sur les consonnes non-voisées et les post-alvéolaires. Cette nouvelle étude vient donc compléter cette dernière en abordant l’environnement phonétique des sons disfluents. L’objectif de ce travail est de définir les traits articulatoires des sons qui composent l’environnement phonétique des phonèmes ayant été bégayés. Pour y parvenir nous avons utilisé des enregistrements audios réalisés auprès de locuteurs bègues francophones du Togo pendant une activité de description d’images. Les résultats mettent en évidence que les consonnes qui viennent avant et après une consonne disfluente ne sont pas forcément de même nature. Certaines catégories de sons augmenteraient le risque de bégaiement s’ils se placent avant ou après une consonne. Mots clés : Bégaiement, parole, phonétique
Phonetic characteristics of the environment of the typical disfluencies of stuttering: the case of french speakers.
This study is a continuation of our previous work on the typical disfluencies of stuttering. Indeed, research on the nature of spontaneous speech disfluent sounds has revealed that it is mainly the anterior vowels, large aperture vowels and nasal vowels that pose the most problems to people who stutter (PWS) in French. For consonants, subjects exhibited significantly greater disfluences on unseen unvoiced consonants and post-alveolars. This new study complements the latter and have to analyze the phonetic environment of disfluent sounds. The main of this study is to define the articulatory features of the sounds that make up the phonetic environment of the phonemes that have been stuttered. To achieve this, we used audio recordings made in Togo from French speakers during a picture’s description. The results show that consonant that come before and after a disfluent consonant are not necessarily of the same nature. Some categories of sounds would increase the risk of stuttering if they are placed before or after a consonant. Key words: Stuttering, speech, phonetic
Stuttering is a neuro-developmental speech impairment characterized by uncontrolled utterances (interjections) and core behaviors (blocks, repetitions, and prolongations), and is caused by the ...failure of speech sensorimotors. Due to its complex nature, stuttering detection (SD) is a difficult task. If detected at an early stage, it could facilitate speech therapists to observe and rectify the speech patterns of persons who stutter (PWS). The stuttered speech of PWS is usually available in limited amounts and is highly imbalanced. To this end, we address the class imbalance problem in the SD domain via a multibranching (MB) scheme and by weighting the contribution of classes in the overall loss function, resulting in a huge improvement in stuttering classes on the SEP-28k dataset over the baseline (StutterNet). To tackle data scarcity, we investigate the effectiveness of data augmentation on top of a multi-branched training scheme. The augmented training outperforms the MB StutterNet (clean) by a relative margin of 4.18% in macro F1-score <inline-formula><tex-math notation="LaTeX">(\mathcal{F}_1)</tex-math></inline-formula>. In addition, we propose a multi-contextual (MC) StutterNet, which exploits different contexts of the stuttered speech, resulting in an overall improvement of 4.48% in <inline-formula><tex-math notation="LaTeX">(\mathcal{F}_1)</tex-math></inline-formula> over the single context based MB StutterNet. Finally, we have shown that applying data augmentation in the cross-corpora scenario can improve the overall SD performance by a relative margin of 13.23% in F1 over the clean training.
Voix, dialogisme, prosodie Dodane, Christelle; Hirsch, Fabrice; Nowakowska, Aleksandra
Cahiers de praxématique,
03/2022
Journal Article
Odprti dostop
Nous examinons la manière dont l’hétérogénéité énonciative se marque prosodiquement dans l’interaction verbale. Nous partons du constat que peu de travaux en analyse du discours « à la française » ...tiennent compte des dimensions vocale et prosodique de l’hétérogénéité énonciative, de même que les travaux en phonétique n’y accordent pas d’intérêt particulier. En appui sur l’analyse d’un corpus de 3 interviews politiques à la radio, nous étudions, dans un premier temps, du point de vue prosodique et dialogique, quelques marqueurs prototypiques de l’hétérogénéité (discours direct, pseudo-clivage et reprise en écho) avant d’examiner des cas où la prosodie est un marqueur du dialogisme en elle-même. Les résultats de la contribution montrent le double apport de la prosodie au fonctionnement dialogique (i) comme accompagnateur d’un marqueur de l’hétérogénéité et (ii) comme marquer du dialogisme.