La linguistique de corpus est directement liée au TAL (traitement automatique du langage). Dans le présent article, nous allons dans un premier temps, nous intéresser aux fondements de la ...linguistique de corpus en tant que discipline, et dans un second temps, nous nous intéresserons à la traduction automatique comme outil de TAL. Nous prendrons comme exemple Google Traduction (GT). Nous nous pencherons sur ses atouts et ses limites, aussi exploiterons-nous les données d’une enquête sur GT afin de mettre en exergue les subtilités du processus de traduction. Un questionnaire a été distribué à un échantillon de 21 enseignants universitaires algériens ayant déjà publié un article. Le corpus récolté a fait l’objet d’une double analyse: d’abord quantitative, ensuite qualitative. Un deuxième corpus constitué de phrases traduites de l’anglais au français, prises de 10 résumés d’articles publiés en ligne, a été analysé pour mettre à l’épreuve GT. Cette étude se fixe comme objectif de mettre en lumière la linguistique de corpus en tant que discipline empirique, ainsi que d'explorer le domaine du TAL pour aboutir à l'étude d'un cas, celui de la traduction automatique à travers Google Traduction.
Une méthodologie textométrique pour différencier quatre genres textuels est utilisée dans la recherche : les discours de presse, les discours encyclopédiques, les discours présidentiels et des écrits ...d'étudiants universitaires. Ces divergences ou ressemblances sont étudiées à ľ aide de marqueurs subjectifs, traces de la locutrice dans son discours : les pronoms personnels de première personne et certains verbes subjectifs (verbes modaux et verbes d'attitude propositionnelle). L'étude de représentativité de ces formes dans des genres différents permet de montrer que des discours à visée informative sont plus imperméables aux marques de la locutrice que des discours à visée argumentative. Cette méthodologie, ainsi que les résultats obtenus, permettent une application didactique en classe de français langue étrangère développée dans la dernière section à l'aide de plusieurs propositions d'exercices.
Le présent article veut explorer des pistes pour l’enseignement/apprentissage des locutions à verbe support en classe de FLE pour les apprenants débutants (niveaux A1 et A2). Partant du constat de ...leur représentation lacunaire dans les manuels et les référentiels, nous procédons, par le recours aux outils de la linguistique de corpus, à une sélection des locutions à présenter en rapport avec les champs d’actions des référentiels pour ces niveaux (critères de fréquence et d’affinité) afin de mieux répondre aux besoins des apprenants. Nous décrivons ensuite leur utilisation dans des textes écrits, notamment en termes de complémentation et de modification. Enfin, nous proposons des activités didactiques adaptées aux compétences des apprenants, basées sur une démarche inductive liée à l’utilisation de corpus (data-driven learning).
The aim of this study is to document the
of the ancient Velay, a historical region belonging to the Northern Occitan linguistic space (Auvergne), which are not represented in the scriptological ...syntheses on Gallo-Romance. The critical updating of the inventory of texts produced in Velay, initiated by Pierre Nauton for his thesis published posthumously in 1974, allows us today to present the characteristic scriptological features of the written language of this area. Starting from the notion of contrastivity efficient in scriptology, we have in particular proceeded to the systematic comparison of lexemes and grammatical words of the Velay corpus with the lemmas of the DOM (
), which offers a minimal contrastive basis. From this, it is possible to highlight at least fifty-eight graphic, phonological and morphological features which are the clearest markers of the language of these texts. The results of this study are intended to place Velay in the linguistic historiography of the Gallo-Romance area in a historical perspective. The inventory of texts also provides evidence for a sociolinguistic history of the written varieties in North Occitan up to ca. 1600.
Formulaic sequences (FSs), or prefabricated multi‐word structures (e.g. on the other hand), are often difficult to identify objectively, and current corpus‐driven methods yield structurally ...incomplete, overlapping, or overly extended structures of questionable psychological validity and pedagogical usefulness. To address these limitations, this study evaluated transitional probability as a potential metric to improve the identification of FSs by presenting 100 four‐word sequences from the British National Corpus, varying in transitional probabilities between words, to native and non‐native speakers of English (N = 293) in a sequence completion task (e.g. for the sake__). Results revealed that the application of transitional probability reduces many of the problems associated with current approaches to FS identification and can produce lists of FSs that are more functionally salient and psychologically valid.
Les expressions stéréotypées (ES), ou les séquences préfabriquées (par exemple, on the other hand) sont souvent difficiles à identifier objectivement et les méthodes actuelles basées sur des corpus produisent des structures incomplètes, se chevauchant, ou excessivement étendues, ce qui remet en question leur validité psychologique et leur utilité pédagogique. Pour pallier ces limites, cette étude a évalué le potentiel d'une métrique basée sur la probabilité de transition dans le but d'améliorer l'identification des ES. Pour cela, 100 séquences de quatre mots tirées du British National Corpus, variant en probabilité de transition entre les mots, ont été présentées à des locuteurs natifs et non natifs en anglais (n = 293) lors d'une tâche consistant à compléter les séquences (par exemple, for the sake__). Les résultats ont révélé que l'application de la probabilité de transition circonscrit plusieurs des problèmes associés aux approches actuelles d'identification de ES, et peut produire des listes de ES plus fonctionnellement saillantes et psychologiquement valides.
This article shares the findings from a study aimed to create a bilingual English-Portuguese glossary of terms and collocations characteristic of restaurant reviews, especially concerning the search ...for translation equivalents. Relying on the assumptions of corpus linguistics, we conducted both quantitative and qualitative analyses to investigate a comparable corpus of texts published in the United States and Brazil. The manual investigation of simple and compound keywords retrieved with Sketch Engine showed that the functional translation of texts pertaining to the genre restaurant review in that pair of languages goes far beyond terminological equivalence, since it should also consider the specificities of the genre in both languages and cultures. We observed that not only are American texts much longer than their Brazilian Portuguese counterparts, but the former are also significantly more technical than the latter. Moreover, restaurant reviews unveil a number of cultural differences when written in different languages for a distinct target audience. To produce texts that work properly for the target reader, the translator should be aware of the conventions of this domain in both languages and cultures before deciding what aspects should be maintained, adapted, or omitted. In addition, elements that do not recur in both lists also reveal cultural differences between texts of a similar genre. We concluded that corpora may not only help translators to interpret source language texts, but also assist them in finding solutions for the translation process.
Ante nuevos campos de conocimiento, los traductores se enfrentan a lagunas contextuales y terminológicas que los diccionarios especializados no cubren. Gracias al potencial que demuestran las ...herramientas de análisis y gestión de corpus, estas se perfilan como indispensables a la hora de estudiar las relaciones gramaticales entre palabras concretas y sus vínculos semánticos, y extraer información definitoria que supla las carencias de los diccionarios en el proceso de traducción. Por ello, esta investigación extrae contextos definitorios en el ámbito de las tecnologías biomédicas, ámbito de conocimiento en continua expansión y con desarrollo constante de técnicas, instrumentos, metodologías y productos, mediante lenguaje de interrogación de corpus (Corpus Query Language, CQL) y expresiones regulares. En otras palabras, se pretende establecer unas pautas para la creación de búsquedas que combinen cql y expresiones regulares, para localizar información que defina, reformule o matice terminología presente en este ámbito. Para ello, se compila un corpus de 100 artículos en francés de investigación sobre ingeniería genética y biotecnología en la herramienta en línea de gestión de corpus Sketch Engine. Las ecuaciones de búsqueda y los ejemplos muestran la utilidad de esta estrategia para localizar contextos ricos en conocimiento que podrían resultar de interés no solo en el ámbito investigador, sino también en el ámbito profesional de la traducción especializada del francés al español, que actualmente cuenta con pocos recursos terminológicos.
En el marco de los estudios de combinatoria léxica basados en corpus han surgido varias obras clave en la lexicografía combinatoria, tanto para el gran público, como para el público especialista. ...Tras analizar algunas propuestas recientes de diccionarios combinatorios bilingües, nos ha parecido necesaria una reflexión sobre la interfaz de paso de una lengua a otra, que llamaremos mesoestructura. En nuestro caso, tenemos como meta el diseño de un diccionario combinatorio bilingüe francés-español (TACTICOMB) que, aunando elementos combinatorios, semánticos y sintácticos, sirva de manera eficaz para la producción y la traducción y profundice en la mesoestructura. Ilustraremos el diseño del diccionario con un modelo de entrada para la combinatoria de peur con verbos.
In this analysis we present a lexical study of two translations of Tartuffe or the Impostorby Molière into Lithuanian. The translation study discusses two different historical periods in Lithuania. ...The analysis of the differences helps to reveal the translation traditions, cultural and linguistic dynamics of the 20th century and draws attention to different translation and retranslation readers, their linguistic and cultural expectations at the beginning and at the end of the XX century. The article aims to analyse lexical distribution and contextual use of lexicon in the research corpus of translations texts of Moliere’s Tartuffe or the Impostor into Lithuanian, and to reveal the solutions of lexical translations which are determined by the different linguistic, historical, and sociocultural contexts of the 20th century in Lithuania. The author appliesquantitative, descriptive, comparative and corpus linguistics methods that allow to analyse digital translations, to obtain objective data and to reveal the benefits of corpus linguistics in translation studies..
Dans notre analyse traductionnelle, nous présentons une étude lexicale de deux traductions de Tartuffe ou l’Imposteur de Molière en lituanien. Cette étude traductologique embrasse deux périodes historiques différentes de la Lituanie et fait apparaître certaines traditions de la traduction du passé, les dynamiques culturelles et linguistiques du XXe siècle et fait penser aux différents destinataires de la traduction et de la retraduction de Tartuffe ou l’Imposteur, à leurs attentes discursives qui ne sont pas les mêmes au début et à la fin du XXe siècle. Notre article a pour but d’analyser la répartition et l’emploi contextuel du lexique dans les traductions de Tartuffe ou l’Imposteur de Molière en lituanien, et de faire apparaître les dynamiques des pratiques traductionnelles liées aux deux périodes historiques de la Lituanie du XXe siècle. Pour atteindre ce but, nous privilégions les méthodes quantitative, descriptive, comparative et celles de la linguistique de corpus qui permettent d’optimiser les recherches traductologiques des traductions numérisées
En este análisis se presenta un estudio léxico de las dos traducciones lituanas de la obra de Molière Tartufo o el impostor. El análisis de sus diferencias ayuda a revelar las tradiciones traductoras, así como las dinámicas culturales y lingüísticas del siglo XX, y llama la atención sobre los diversos destinatarios de ambas traducciones, sus expectativas lingüísticas y culturales tanto a principios como a finales del siglo XX. En este artículo se pretende analizar la distribución léxica y el empleo contextual del léxico en el corpus de las dos traducciones lituanas del Tartufo de Molière, y revelar la dinámica de las prácticas traductoras que vienen determinadas por los diversos contextos lingüísticos, históricos y socioculturales del siglo XX en Lituania. La autora emplea los métodos cuantitativo, descriptivo, comparativo y de la lingüística de corpus, lo cual permite analizar las traducciones digitalizadas para obtener datos objetivos y revelar los beneficios de la lingüística de corpus en los estudios traductológicos.
, the nonstandard spelling of
which was proposed by American spelling reformers in the 19th century, is making a comeback. In 2013, internet memes such as
gave a boost to the shortened form. This ...sociolinguistic study investigates the use of
in RedditGender, a 19 million-word corpus of comments posted by 1044 Reddit users. First, concordance lines generated from the whole corpus were analyzed in order to compare the use of
with the meme and the standard spelling. Then, regression analysis was conducted with a sample of the corpus, containing only complete cases. Results show that
is rarely used in the meme construction that contributed to popularize it, and that it appears more often as an adverb than as a conjunction. They also seem to indicate that the use of
is correlated with gender and race. Most frequent users are black males. This suggests that the shortened spelling is not simply a way to save time when typing, and that it is not semantically equivalent to
. It seems to be a marker of affiliation with a social group and of familiarity with internet subcultures.