Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
haraoubia nour el houda
29 mai 2009

linguistique

familles des langues

mortes, classées par familles et par groupes. La notion de famille génétique de langues est décrite plus en détail dans l'article consacré à la linguistique comparée.

Les tentatives de certains linguistes, fréquentes depuis la deuxième moitié du XXe siècle, proposant de rassembler certaines familles de langue dans des super familles de langues (par exemple considérer que les langues altaïques et ouraliennes font partie d'une même famille dite « ouralo-altaïque ») n'ayant pas donné de résultats probants jusqu'à présent, seules les super familles dont la reconnaissance fait l'objet d'un large consensus, telles que les langues austronésiennes ou les langues indo-européennes (qui ont été mises en évidence dès le XIXe siècle) ou encore les langues sino-tibétaines, sont répertoriées.

Pour trouver rapidement une langue dans cette liste, faites Ctrl+F (ou Édition > Rechercher dans la barre

d'outils de votre navigateur), et tapez le nom de la langue que vous cherchez.

Domaines de la linguistique théorique [modifier]

La linguistique théorique est souvent divisée en domaines séparés et plus ou moins indépendants :

Linguistique synchronique et linguistique diachronique [modifier]

Alors que la linguistique synchronique s'attache à décrire les langues à un moment donné de leur histoire (le plus souvent le présent), la linguistique diachronique examine comment les langues évoluent au cours du temps — que ces changements concernent la prononciation (on parle alors de phonétique historique), le sens et l'histoire des mots (c'est là l'étymologie qui est concernée), voire plusieurs aspects (et l'on touche là à la linguistique) — parfois à travers plusieurs siècles. Le premier à avoir distingué ces deux types d'études est Ferdinand de Saussure[1]. La linguistique historique jouit d'une longue et riche histoire. C'est d'ailleurs de cette branche de la linguistique que sont nées les autres approches. Elle repose sur des postulats théoriques jugés solides (comme les lois phonétiques).

Une discipline comme la linguistique comparée repose principalement sur une optique historique.

Linguistique des langues [modifier]

La linguistique peut évidemment s'attacher à une langue en particulier (par exemple au français, et on parle alors de linguistique française) ou à un groupe de langues (exemples : linguistique romane, linguistique germanique, linguistique finno-ougrienne, linguistique indo-européenne) ou à des langues géographiquement groupées (exemples : linguistique balkanique, linguistique africaine).

Linguistique appliquée [modifier]

Au contraire de la linguistique théorique, qui cherche à décrire, de manière générale, une langue donnée ou le langage humain, la linguistique appliquée se sert de ces recherches pour les appliquer à d'autres domaines comme la didactique des langues, la pathologie du langage, la dictionnairique, la synthèse ou la reconnaissance vocale (ces deux dernières approches étant ensuite utilisées en informatique pour fournir des interfaces vocales, par exemple), l'intelligence artificielle.

Linguistique contextuelle [modifier]

La linguistique contextuelle est un domaine dans lequel la linguistique interagit avec d'autres disciplines. Elle étudie par exemple comment le langage interagit avec le reste du monde.

La sociolinguistique, la linguistique anthropologique et l'anthropologie linguistique sont des domaines ressortissant à la linguistique contextuelle dans lesquels on étudie les liens entre le langage et la société.

De même, l'analyse critique du discours est un point de rencontre entre la rhétorique, la philosophie et la linguistique. Il est ainsi possible de parler d'une philosophie du langage.

D'autre part, l'étude médicale du langage conduit à des approches psycholinguistique et neurolinguistique.

Enfin, appartiennent aussi à la linguistique contextuelle des domaines de recherches comme l'acquisition du langage, la linguistique évolutionniste, la linguistique stratificationnelle ainsi que les sciences cognitives.

Locuteur individuel, communautés linguistiques et caractéristiques universelles du langage [modifier]

Plusieurs approches linguistiques sont possibles selon l'étendue de l'objet d'étude : certains analysent la langue d'un locuteur donné, d'autres des développements généraux sur la langue. On peut aussi étudier la langue d'une communauté bien précise, comme l'argot des banlieues ou bien rechercher les caractéristiques universelles du langage partagées par tous les hommes. C'est cette dernière approche, la linguistique générale, dont le pionnier a été Ferdinand de Saussure, qui a été retenue par Noam Chomsky et qui trouve des échos en psycholinguistique et dans les sciences cognitives. On peut penser que ces caractéristiques universelles sont susceptibles de révéler des éléments importants concernant la pensée humaine en général. Voir par exemple les fonctions du langage.

Démarche descriptive, démarche prescriptive [modifier]

La majorité des recherches accomplies en linguistique sont purement descriptives : les linguistes cherchent à expliciter la nature du langage sans porter de jugements de valeur. Cependant, il existe un grand nombre de professionnels et d'amateurs qui ne se détachent pas d'un point de vue normatif, plus proche de celui de la grammaire. Alors que ceux-ci vont juger un énoncé selon qu'il respecte ou non le bon usage ou des règles, ceux qui suivent une démarche descriptive vont surtout chercher les origines de ces usages, des règles ou des erreurs qu'ils pourront simplement décrire comme des usages particuliers, voire comprendre que derrière une faute se cache un besoin de rationalisation de la langue.

Le site anglophone Language Log est une bonne illustration de cette opposition: il s'agit d'un blog tenu par des linguistes suivant une démarche descriptive, et expliquant clairement leurs prises de position.

Parole et écriture [modifier]

La plupart des travaux en linguistique, à l'heure actuelle, partent du principe que la langue parlée est première, et que la langue écrite n'en est qu'un reflet secondaire. Plusieurs raisons sont évoquées :

  • alors que la parole est universelle, l'écriture ne l'est pas, loin de là ;
  • l'apprentissage de la langue parlée est bien plus aisé et rapide que celui de la langue écrite ;
  • nombre de scientifiques des sciences cognitives pensent qu'il existe dans le cerveau un module du langage qu'il n'est possible de connaître qu'à travers la langue parlée.

Bien sûr, les linguistes reconnaissent que l'étude de la langue écrite est loin d'être inutile. L'étude de corpus écrits, à cet égard, est primordiale en linguistique computationnelle, les corpus oraux étant difficiles à créer et à trouver. D'autre part, l'étude des systèmes d'écriture, ou grammatologie, ressortit pleinement à la linguistique. Enfin, les langues dotées d'une tradition écrite ancienne ne sont pas imperméables à des effets rétroactifs de l'écrit sur l'oral : le mot français legs, par exemple, dans lequel le g n'est pas étymologique, est le plus souvent prononcé /lεg/, par influence de la graphie, alors qu'à l'origine on disait /le/.

Domaines de recherches de la linguistique [modifier]

Phonétique, phonologie, diglossie, syntaxe, sémantique, pragmatique, étymologie, lexicologie, lexicographie, linguistique théorique, linguistique comparée, dialectologie, linguistique descriptive, psycholinguistique, typologie des langues, linguistique computationnelle, sémiotique, écriture, etc., sont parmi les domaines les plus courants.

Recherches interdisciplinaires [modifier]

Linguistique appliquée, linguistique cognitive, linguistique historique, orthographe, grammatologie, cryptanalyse, déchiffrage, sociolinguistique, anthropologie linguistique, linguistique anthropologique, analyse critique du discours, psycholinguistique, acquisition du langage, traitement automatique des langues, reconnaissance vocale, reconnaissance du locuteur, synthèse vocale et, plus généralement, traitement de la parole, sont de telles disciplines. Il est visible que la linguistique comprend de divers chantiers de recherche. La créolistique qui s’est donné la tache d’étudier les langues issues du colonialisme (exemples: papiamentu de Curazao, la langue de Cabo Verde) devient de plus en plus importante.

Linguistes importants et écoles de pensée [modifier]

Parmi les premiers linguistes d'importance, il convient de compter Jacob Grimm, qui, en 1822, a compris et décrit la nature des modifications phonétiques touchant les consonnes dans les langues germaniques (modifications décrites dans la loi de Grimm). À sa suite, Karl Verner, inventeur de la loi portant son nom, August Schleicher, créateur de la Stammbaumtheorie et Johannes Schmidt, qui a développé la Wellentheorie (modèle par vagues) en 1872.

Ferdinand de Saussure peut être considéré comme le fondateur de la linguistique structuraliste (ce terme lui étant postérieur) et, pendant longtemps, comme le père de la linguistique moderne. Il s'est opposé au behaviorisme.

Dans les années 1920, Roman Jakobson fut l'un des chefs de file du formalisme russe et du Cercle linguistique de Prague (invention de la phonologie).

Gustave Guillaume, s'opposant à Saussure, étudie la langue d'un point de vue plus phénoménologique (Temps et verbe, 1929). De nombreux adeptes perpétuent ou redécouvrent aujourd'hui sa théorie.

Le modèle formel du langage développé par Noam Chomsky, ou grammaire générative et transformationnelle, s'est développé sous l'influence de son maître distributionnaliste, Zellig Harris, lequel suivait déjà fortement les préceptes distributionalistes de Leonard Bloomfield. Ce modèle s'est imposé depuis les années 1960 dans le domaine de la linguistique cognitive (compétence et performance).

En France, les travaux du linguiste André Martinet, chef de file du fonctionnalisme, sont notables, ainsi que ceux de Gustave Guillaume, d'Antoine Culioli et de Lucien Tesnière.

La linguistique n'exclut pas forcément le grand public, pas plus que la sémiotique : témoins les ouvrages de vulgarisation d'Henriette Walter ou de Umberto Eco.

Sur les applications en communication, il faut noter les travaux de Roman Jakobson, qui a établi un modèle linguistique de communication, composé de six fonctions associées à des agents de communication.

Pour plus de détails, consulter la liste de linguistes.

Représentation écrite de la parole [modifier]

Il existe de nombreuses méthodes utilisées pour transcrire par écrit la parole, comme l'Alphabet phonétique international de l'Association phonétique internationale, ou API, méthode la plus commune actuellement. Celles-ci peuvent tendre à une extrême précision (on parle de transcription fine) et tenter de représenter les particularités phonétiques d'un locuteur précis, ou bien ne décrire que très généralement les oppositions fondamentales entre phonèmes d'une langue ; il s'agit là de transcription phonologique (ou phonétique large).

En France, d'autres systèmes existent, comme la notation de Bourciez, propre à la phonétique historique du français et, plus généralement, des langues romanes. Chaque pays doté d'une tradition linguistique a pu développer ses systèmes de transcription. C'est pourtant l'API qui, aujourd'hui, prédomine dans la recherche.

Lorsqu'il n'est pas possible d'utiliser l'API pour des raisons techniques, il existe plusieurs méthodes permettant de transcrire l'API dans un système n'utilisant que des caractères présents dans tous les jeux de caractères, comme le SAMPA.

Consulter aussi cette liste de méthodes de transcription.

Vers une conception plus étroite de la linguistique [modifier]

Les termes de linguistique et linguiste ne sont pas toujours appliqués de manière aussi large que vu plus haut. Dans certains contextes, principalement universitaires, de meilleures définitions pourraient être, respectivement, « discipline que l'on étudie dans les départements relevant de la section 07 du Conseil National des Universités[2] » et « enseignant-chercheur d'un tel département ». La linguistique ainsi considérée ne renvoie pas à l'apprentissage des langues étrangères (à moins que cet apprentissage ne permette de créer des modèles formels de description des langues). Elle n'inclut pas non plus l'étude littéraire.

En règle générale, il convient de prendre conscience qu'un linguiste n'est pas forcément un polyglotte. En effet, la maîtrise complète d'une langue n'est pas une condition nécessaire (ni même suffisante) pour étudier et décrire certains aspects de son fonctionnement (c'est, par exemple, le cas en phonétique, où l'étude de la production des sons d'une langue n'implique pas la connaissance de sa syntaxe). Lorsqu'un linguiste s'intéresse à une langue dont il n'est pas particulièrement familier.

utilité de la linguistique

Dominique MAINGUENEAU, Linguistique pour le texte littéraire, Paris, Armand Colin, 2007, p.243

Cet ouvrage est un remaniement de l’édition de 1986, intitulée Eléments de linguistique littéraire, qui avait déjà joui d’une refonte en 1993, et dont le but était de rétablir les ponts entre la linguistique et la littérature. La visée de la première édition, précise l’auteur dans l’avant-propos, était pourtant modeste, car le texte n’offrait que des notions de linguistique pour l’étude des textes littéraires.
Bien que l’architecture du livre soit presque identique à l’original, cette dernière édition apporte des changements importants dans tout le texte, notamment dans le domaine des nouvelles relations entre la linguistique et la littérature et dans la prise en compte de problématiques précédemment négligées. L’auteur analyse, donc, le fait littéraire dans le cadre de la scène d’énonciation et montre l’utilité des outils linguistiques dans l’étude de l’acte de la communication. Chaque chapitre porte sur un sujet différent, offre des analyses détaillées d’extraits littéraires – narratifs, poétiques, théâtraux – et propose des lectures supplémentaires ainsi que des exercices dont on trouve les corrigés à la fin du livre. Le volume s’ouvre avec la définition de la situation d’énonciation et un éclaircissement terminologique et historique avant de passer à l’étude de la mise en scène de la parole et des déictiques. En s’appuyant sur les notions de discours et récit de Benveniste, l’auteur examine, dans le deuxième chapitre, les tiroirs aspectuels à disposition du discours et du récit, en s’attardant sur les modes de procès et les temps verbaux. Maingueneau prend ensuite en considération les récits non-narratifs et élargit la définition de récit à des énoncés en rupture avec leur situation d’énonciation : c’est ainsi qu’il propose les notions de plan embrayé et non-embrayé. La mise en relief, qui est l’objet du troisième chapitre, est analysée dans l’économie romanesque classique et dans la littérature contemporaine, qui tend souvent à neutraliser l’opposition entre les temps perfectifs et imperfectifs. La description, qui relève de la mise en relief, est examinée à l’aide de l’organisation du lexique et de la perspective descriptive. Successivement, l’auteur se concentre sur la polyphonie linguistique en analysant les notions de sujet parlant, de locuteur, de personnage comme locuteur et les deux instances du locuteur en tant qu’acteur de son activité énonciative et en tant qu’être du monde. Dans ce même cadre, l’auteur considère l’ironie comme un phénomène polyphonique et prend en examen une série de stratégies – modalisation autonymique, guillemets, italique et subversion – aptes à montrer la prise de distance de la part du locuteur. Par l’étude du discours rapporté dans le cinquième chapitre, l’auteur approfondit la question de la polyphonie et analyse les procédés classiques – discours direct, indirect et indirect libre – d’intégration d’un acte d’énonciation dans un autre, qu’il juge pourtant insuffisants pour la prise en compte de l’énonciation rapportée. De ce fait, des catégories supplémentaires sont proposées, comme par exemple le discours direct libre, le phénomène de contamination lexicale et la présence du narrateur témoin, qui permettent de restituer les paroles du personnage sans rompre le fil de la narration. Le sixième chapitre aborde la catégorie adjectivale, qui est un domaine privilégié de l’analyse stylistique, étant le lieu principal pour l’expression de la subjectivité et du style de l’écrivain. Après une révision des divers types d’adjectifs, l’auteur focalise son intérêt sur une propriété sémantique propre des adjectifs, à savoir la classifiance. Aux catégories de subjectif et objectif, l’auteur préfère celles de classifiance et de non-classifiance, qui indiquent respectivement la capacité d’un adjectif d’être porteur d’informations délimitables ou d’une évaluation. L’ouvrage se termine avec l’étude de la cohérence textuelle, phénomène linguistique qui ressort, différemment des autres, de l’opération du co-énonciateur aussi. Pour son analyse, l’auteur examine avant tout les types et les genres du discours, la cohérence d’un texte dépendant pour une partie importante du discours auquel on le rattache, pour passer ensuite à l’organisation hiérarchisée d’un texte et aux éléments contribuant à l’effet de cohérence – paragraphes, séquences, marqueurs d’intégration linéaire, répétitions, pronoms, anaphores – en soulignant les différences entre la cohérence d’un texte littéraire par rapport au texte non-littéraire.

Le corpus en linguistique

La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.

On parle de corpus pour désigner l'aspect normatif de la langue : sa structure et son code en particulier. "Corpus" est généralement opposé à "status" (ou statut), qui correspond aux conditions d'utilisation de la langue. Cette opposition est commune dans l'étude des politiques linguistiques.

Le corpus en littérature

Le corpus regroupe un ensemble de textes ayant une visée commune. Un corpus peut etre constitué de documents différents (tableau, extrait de texte...) et ces documents divers ont un point en commun. En général c'est le thème qui fait figure de leur ressemblance. Il faut avoir une technique particulière pour le dechiffrer.

Le corpus dans la science

Les corpus sont des outils indispensables et précieux en traitement automatique du langage naturel. Ils permettent en effet d'extraire un ensemble d'information utile pour des traitements statistiques.

D'un point de vue informatif, ils permettent d'extraire des tendances et notamment de construire des ensembles de n-grammes.

D'un point de vue méthodologique, ils apportent une objectivité nécessaire à la validation scientifique en traitement automatique du langage naturel. L'information n'est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s'appuyer sur des corpus (à condition qu'ils soient bien formés) pour formuler et vérifier des hypothèses scientifiques.

Corpus bien formé

Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé :

  • la taille ;
  • le langage du corpus ;
  • le temps couvert par les textes du corpus ;
  • le registre ;

Taille

Le corpus doit évidemment atteindre une taille critique pour permettre des traitements statistiques fiables. Il est impossible d'extraire des informations fiables à partir d'un corpus trop petit (voir Statistiques).

Langage

Un corpus bien formé doit nécessairement couvrir un seul langage, et une seule déclinaison de ce langage. Il existe par exemple de subtiles différences entre le français de France et le français parlé en Belgique. Il ne sera donc pas possible de tirer des conclusions fiables à partir d'un corpus franco-belge sur le français de France, ni sur le français de Belgique.

Temps couvert par les textes du corpus

Le temps joue un rôle important dans l'évolution du langage : le français parlé aujourd'hui ne ressemble pas au français parlé il y a 200 ans ni, de façon plus subtile, au français parlé il y a 10 ans, à cause notamment des néologismes. C'est un phénomène à prendre en compte pour toutes les langues vivantes. Un corpus ne doit donc pas contenir de textes rédigés à des intervalles de temps trop larges.

Registre de langage

Il ne faut pas non plus mélanger des registres différents et le scientifique ne peut s'autoriser à extraire des informations d'un corpus destiné à un certain registre en les appliquant à un autre. Un corpus construit à partir de textes scientifiques ne peut être utilisé pour extraire des informations sur les textes vulgarisés, et un corpus mélangeant des textes scientifiques et vulgarisés ne permettra de tirer aucune conclusion sur ces deux registres.

Méthodologie

Il serait maladroit d'un point de vue méthodologique d'appliquer des traitements statistiques sur le corpus qui a permis de faire ressortir un classement ou une modélisation du langage.

Lorsque l'on travaille avec des corpus, il convient donc de séparer un corpus initial en deux sous-corpus:

  • le corpus d'apprentissage, qui sert à retirer un modèle ou un classement à partir d'un nombre suffisant d'information ;
  • le corpus de test, qui sert à vérifier la qualité de l'apprentissage à partir du corpus d'apprentissage.

Le calibrage des volumes des corpus se discute en fonction du problème, mais il est fréquent d'utiliser les 2/3 du corpus initial pour l'apprentissage et le tiers restant pour effectuer les tests.

Lorsque le volume du corpus initial n'est pas suffisant, il est possible de croiser les corpus de tests et d'apprentissage sur plusieurs expérimentations. Par exemple, si l'on découpe le corpus initial en 10 sous-corpus, numérotés de 1 à 10

  • Expérience 1 : utilisation des corpus 1 à 8 en apprentissage, et 9 et 10 pour les tests;
  • Expérience 2 : utilisation des corpus 1 à 6 et 9 et 10 en apprentissage, 7 et 8 pour les tests;
  • ...

La mesure de qualité des résultats (précision ou rappel) est alors plus précise, mais en aucun cas les corpus d'apprentissage et de tests n'ont été mélangé.

Corpus parallèles et corpus comparables

Corpus parallèles

On appelle corpus parallèle un ensemble de couples de textes tel que, pour un couple, un des textes est la traduction de l'autre. Il est intéressant d'aligner ces corpus, c'est-à-dire de faire correspondre chaque unité du texte en langue source avec chaque unité de texte en langue cible (au niveau des paragraphes, phrases et mots) pour disposer d'un jeu de donnée bilingue, en particulier dans des domaines spécialisés où le vocabulaire et l'usage des mots et des expressions évolue rapidement.

À titre d'exemple, au 26 octobre 2006, les versions françaises et anglaise des articles Déclin de l'Empire romain d'Occident et Decline of the Roman Empire sont des textes parallèles. Le texte source est la version anglaise, la version française est la cible, issue de la traduction.

Bien que les textes soient dits parallèles, la traduction engendre des différences structurelles entre les textes. Certaines expressions peuvent-être traduite par un nombre différent de mots. Par exemple « Theories about the decline and fall of the Roman Empire » est composé de 10 mots alors que sa traduction « Théories du déclin de l'Empire romain » n'est composé que de 7 mots. De la même façon, des phrases dans le texte source sont susceptible d'être regroupées dans la traduction, ou, à l'inverse, scindées. Le parallélisme n'est donc jamais parfait et les méthodes d'alignement doivent en tenir compte.

Les corpus de textes parallèles sont toutefois relativement rares. À titre d'exemple citons le Hansard, qui est le compte-rendu des Débats de la Chambre des communes canadienne, publié en français et en anglais.

Corpus comparables [modifier]

La linguistique de corpus ayant besoin de jeux de données volumineux pour travailler, les corpus parallèles sont certes très précieux mais trop rares pour suffire à tous les usages.

Les corpus comparables sont largement plus répandus. Déjean & Gaussier donnent la définition suivante de corpus comparable

« Deux corpus de deux langues l1 et l2 sont dits comparables s'il existe une sous-partie non négligeable du vocabulaire du corpus de langue l1, respectivement l2, dont la traduction se trouve dans le corpus de langue l2, respectivement l1. »

Un corpus comparable est donc composé de textes dans des langues différentes mais partageant une partie du vocabulaire employé, ce qui implique généralement que les textes parlent d'un même sujet, à la même époque et dans un registre comparable. Une sélection d'articles de journaux dans différentes langues, traitant d'une même actualité internationale et à la même époque constitue un bon exemple de corpus comparable.

L'alignement ne peut donc plus s'appuyer sur la structure du texte (qui n'a pas à être identique d'une langue à l'autre) et les approches proposées cherchent plutôt à prendre en compte le contexte de chaque terme à aligner, c'est-à-dire la façon dont ils sont employés et les mots avec lesquels ils co-occurrent dans le texte

Publicité
Publicité
Commentaires
haraoubia nour el houda
Publicité
Publicité