@inproceedings{miletic-2023-outiller,
title = "Outiller l{'}occitan : nouvelles ressources et lemmatisation",
author = "Mileti{\'c}, Aleksandra",
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-long.17",
pages = "217--231",
abstract = "Ce travail pr{\'e}sente des contributions r{\'e}centes {\`a} l{'}effort de doter l{'}occitan de ressources et outils pour le TAL. Plusieurs ressources existantes ont {\'e}t{\'e} modifi{\'e}es ou adapt{\'e}es, notamment un tok{\'e}niseur {\`a} base de r{\`e}gles, un lexique morphosyntaxique et un corpus arbor{\'e}. Ces ressources ont {\'e}t{\'e} utilis{\'e}es pour entra{\^\i}ner et {\'e}valuer des mod{\`e}les neuronaux pour la lemmatisation. Dans le cadre de ces exp{\'e}riences, un nouveau corpus plus large (2 millions de tokens) provenant du Wikip{\'e}dia a {\'e}t{\'e} annot{\'e} en parties du discours, lemmatis{\'e} et diffus{\'e}.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="miletic-2023-outiller">
<titleInfo>
<title>Outiller l’occitan : nouvelles ressources et lemmatisation</title>
</titleInfo>
<name type="personal">
<namePart type="given">Aleksandra</namePart>
<namePart type="family">Miletić</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Ce travail présente des contributions récentes à l’effort de doter l’occitan de ressources et outils pour le TAL. Plusieurs ressources existantes ont été modifiées ou adaptées, notamment un tokéniseur à base de règles, un lexique morphosyntaxique et un corpus arboré. Ces ressources ont été utilisées pour entraîner et évaluer des modèles neuronaux pour la lemmatisation. Dans le cadre de ces expériences, un nouveau corpus plus large (2 millions de tokens) provenant du Wikipédia a été annoté en parties du discours, lemmatisé et diffusé.</abstract>
<identifier type="citekey">miletic-2023-outiller</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-long.17</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>217</start>
<end>231</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Outiller l’occitan : nouvelles ressources et lemmatisation
%A Miletić, Aleksandra
%Y Servan, Christophe
%Y Vilnat, Anne
%S Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F miletic-2023-outiller
%X Ce travail présente des contributions récentes à l’effort de doter l’occitan de ressources et outils pour le TAL. Plusieurs ressources existantes ont été modifiées ou adaptées, notamment un tokéniseur à base de règles, un lexique morphosyntaxique et un corpus arboré. Ces ressources ont été utilisées pour entraîner et évaluer des modèles neuronaux pour la lemmatisation. Dans le cadre de ces expériences, un nouveau corpus plus large (2 millions de tokens) provenant du Wikipédia a été annoté en parties du discours, lemmatisé et diffusé.
%U https://aclanthology.org/2023.jeptalnrecital-long.17
%P 217-231
Markdown (Informal)
[Outiller l’occitan : nouvelles ressources et lemmatisation](https://aclanthology.org/2023.jeptalnrecital-long.17) (Miletić, JEP/TALN/RECITAL 2023)
ACL
- Aleksandra Miletić. 2023. Outiller l’occitan : nouvelles ressources et lemmatisation. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs, pages 217–231, Paris, France. ATALA.