démonette est un projet de recherche portant sur la construction d’une base de données qui décrit les propriétés dérivationnelles des mots français. La dérivation est la formation de nouveaux mots à partir des mots existants. La base démonette décrit donc comment certains mots ont été formés à base d'autres mots. La base contient 3 tables : table des lexèmes, table des relations et table des familles. La table des lexèmes décrit les lexèmes* du français en précisant leur catégorie morphosyntaxique (nom, adjectif, verbe...), paradigme flexionnel (l'ensemble des formes), prononciation, type sémantique, variantes orthographiques etc. La table des relations décrit les relations dérivationnelles entre ces lexèmes : quel lexème a été formé à partir de quel autre lexème (rejouer - jouer), quels lexèmes ont un parent commun etc.
*Un lexème est un mot d'une langue, une entrée du dictionnaire. Un lexème peut avoir plusieurs formes. Par exemple, être, est, sommes... sont des formes du même lexème.
Les expressions régulières permettent de faire des recherches à un niveau d'abstraction supérieur à une recherche par lettres. Les expressions régulières aident à faire des recherches plus générales ou bien plus précises, selon les besoins. C'est un langage formel qui s'apparente légèrement à un langage mathématique. À l'aide d'expressions régulières, il est possible de chercher des mots contenant certains caractères ou suites de caractères, en précisant leur position dans le mot si besoin. Voici quelques exemples de recherches de mots à l'aide d'expressions régulières :
Champ | Description |
---|---|
lid | L'identifiant du lexème |
fid | L'identifiant de la famille lexicale à laquelle appartient le lexème |
graphie | Le lemme |
ori_graphie | La ou les origines du lemme |
cat | La catégorie morpho-syntaxique |
ori_cat | La ou les origines de la catégorie morpho-syntaxique |
para_orth | Le paradigme orthographique du lexème |
ori_para_orth | La ou les origines du paradigme orthographique du lexème |
para_phon | Le paradigme phonétique du lexème |
ori_para_phon | La ou les origines du paradigme phonétique du lexème |
stem_space | Espace thématique : 12 formes à partir desquelles on peut déduire tout le paradigme du verbe |
sem_type | Le type sémantique du lexème |
ori_sem_type | La ou les origines du type sémantique du lexème |
variantes | Les identifiants des variantes orthographiques du lexème |
ori_variantes | La ou les origines des variantes orthographiques du lexème |
Pour la soumission d'un fichier de relations, il est indispensable de se référer à la table des lexèmes pour renseigner les identifiants de chacun des lexèmes dans les colonnes lid_X. Si les identifiants ne sont pas renseignés ou ne correspondent pas à la table des lexèmes, le fichier de relations ne pourra pas être ajouté à la base (voir la page d'aide pour la création d'un fichier de relations).
Chaque ligne de la table des relations décrit une relation entre 2 lexèmes. Elle contient d'une part des champs décrivant chacun des 2 lexèmes et d'autre part des champs décrivant la relation entre eux. Ainsi, les champs décrivant chacun des 2 lexèmes sont en double, avec les indices 1 et 2. Or, dans le tableau ci-dessous, ils sont expliqués une seule fois. Les champs commençant par 'ori' désignent la ou les ressources où les informations de ce champ ont été récupérées. Le tableau ci-dessous récapitule l'essentiel du contenu de la table des relations. Si vous avez besoin de plus de détails, merci de télécharger la grille au format PDF.
Champ | Description |
---|---|
rid | L'identifiant de la relation. |
fid | L'identifiant de la famille lexicale à laquelle appartiennent les lexèmes de la relation. |
lid (1 et 2) | L'identifiant du lexème. |
graph (1 et 2) | La graphie du lexème. |
ori_graph (1 et 2) | L'origine de la graphie du lexème. |
cat (1 et 2) | La catégorie morpho-syntaxique. |
ori_cat (1 et 2) | La ou les origines de la catégorie morpho-syntaxique. |
ori_cple (1 et 2) | Origine(s) de la relation. |
type_cstr (1 et 2) | type_cstr_1: Le procédé dérivationnel qui est à l'origine de lexème 1 relativement à sa relation avec lexème 2. type_cstr_2: Le procédé dérivationnel qui est à l'origine de lexème 2 relativement à sa relation avec lexème 1. Ex : (abaissement, abaisser) : type_cstr_1 = suf, type_cstr_2 = NA La valeur peut être laissée vide en cas d'annotation incomplète. |
cstr (1 et 2) | Le ou les affixes qui ont formé le lexème à partir de son ascendant dérivationnel. Ex : (clarté, déséclaircissement) : cstr_1 = Xité, cstr_2 = déséXment La valeur peut être laissée vide en cas d'annotation incomplète. |
ori_cstr (1 et 2) | La ou les origines des informations sur les affixes qui ont dérivé ce lexème. |
complexite |
La complexité de la relation entre lexème 1 et lexème 2.
simple
|
ori_complexite | La ou les origines de la complexité |
orientation | L'orientation de la relation entre lexème 1 et lexème 2.
|
ori_orientation | La ou les origines de l'orientation de la relation entre lexème 1 et lexème 2. |
semty (1 et 2) | Chaque lexème de la table des lexèmes reçoit un ou plusieurs types ontologiques. Les lexèmes polysémiques ont une étiquette complexe type1|type2. Ex : transporteur : Person|Artifact La valeur peut être laissée vide en cas d'annotation incomplète. |
ori_semty (1 et 2) | La ou les origines du ou des types ontologiques du lexème. |
sous_semty (1 et 2) | Hyponyme de semty pertinent pour la relation et absent de la liste des types possibles pour semty. Ex : (cerise, cerisier) : fruit La valeur peut être laissée vide en cas d'annotation incomplète. |
ori_sous_semty (1 et 2) | Origine du sous-type sémantique de la relation. |
semtyrss (1 et 2) | La valeur du type sémantique codée dans la ressource d'origine (si pertinent). La valeur peut être laissée vide en cas d'annotation incomplète. |
ori_semtyrss (1 et 2) | L'origine du type sémantique |
relsem_n1 | Typage sémantique grossier de la relation (niveau 1), pour l'instant limité aux cas où lexème 1 est la base de lexème 2 ou lexème 2 est la base de lexème 1. Les 4 types de relations correspondent aux combinaisons possibles situation/entité Ex : (laver, lavage), (émerveiller, émerveillement) : sit-sit Ex : (danser, danseur), (laver, lavoir) : sit-ent Ex : (bouton, boutonner), (hôpital, hospitaliser) : ent-sit Ex : (boulanger, boulangerie), (pomme, pommier) : ent-ent La valeur peut être laissée vide en cas d'annotation incomplète. |
ori_relsem_n1 | La ou les origines du typage sémantique de la relation. |
relsem_n2 | Typage sémantique plus précis de la relation (niveau 2) : synonymie, résultatif, causatif, proto-agent, proto-patient, lieu, résultat, utilisation, privatif, similatif, constitutif, statut, collectif, délivreur, soigneur, utilisateur etc. Ex : proto-agent --- "Un laveur fait un lavage" |
ori_relsem_n2 | La ou les origines du typage plus précis de la relation. |
def_conc | Définition croisée de lexème 1 et lexème 2 corrélée aux types sémantiques des relations et des lexèmes. La def_conc pour (lexème 1, lexème 2) est identique à celle de (lexème 2, lexème 1). La valeur peut être laissée vide en cas d'annotation incomplète. |
ori_def_conc | La ou les origines de la définition croisée de lexème 1 et lexème 2. |
def_abs | Abstraction de la définition croisée de lexème 1 et lexème 2. Ex : " quand on Pred_V qqc on fait Sit-dyn_Ncms " La valeur peut être laissée vide en cas d'annotation incomplète. |
ori_def_abs | La ou les origines de l'abstraction de la définition croisée de lexème 1 et lexème 2. |
Si vous avez besoin d'explications plus détaillées du contenu de la table des relations, merci de les télécharger au format PDF.