Università Cattolica del Sacro Cuore

Linguistica generale

GLOT 01/A (L-LIN/01)

LINGUISTICA GENERALE

Gruppo: Maria Cristina Gatti, Giovanni Gobber, Sara Cigada, Sarah Bigi, Natalia Kuznetsova, Maria Paola Tenchini.
Il gruppo di linguistica generale svolgerà le ricerche seguenti:

  • studi di argomentazione: l’argomentazione nel discorso finanziario (Gatti); argomentazione e ragionevolezza nel linguaggio giuridico (Gatti); le emozioni nell’argomentazione finanziaria (Cigada);
  • pragmalinguistica: gli atti linguistici come atti terapeutici nelle interazioni medico-paziente (Bigi); strutture interrogative nei dialoghi clinici (Bigi); la multidimensionalità degli atti linguistici e l’espressività dei termini connotati (Tenchini);
  • incontri di lingue e culture, con attenzione alla Mitteleuropa moderna (Gobber), alla francofonia asiatica (Cigada) e all’immigrazione sub-sahariana in Italia (Cigada); studi su prestiti indo-europei e turchi in georgiano (Gobber); l’alternanza di codice in parlanti plurilingui della Bosnia-Erzegovina (Tenchini);
  • ndagini di fonetica e fonologia, con attenzione alle lingue finniche (Kuznetsova); tipologia delle rarità fonetiche e fonologiche (Kuznetsova); i confini di parola nella lingua guro (Kuznetsova).

 

 

LINGUISTICA COMPUTAZIONALE

In Dipartimento è attiva una linea di ricerca di area linguistico-computazionale che si concentra sull'analisi automatica dei dati linguistici, declinata in termini di utilizzo e sviluppo di modelli per il trattamento automatico del linguaggio, oltre che di produzione e pubblicazione (in Linked Data) di risorse linguistiche sia di tipo lessicale che di tipo testuale.

La linea di ricerca è condotta massimamente presso il centro di ricerca CIRCSE, diretto dal Prof. Marco C. Passarotti. I ricercatori coinvolti sono il dr. Francesco Mambrini (RTT) e la dr.ssa Eleonora Litta (RTD-a)

Nello specifico, per il triennio oggetto della presente relazione, la linea di ricerca prevede di concentrarsi sulle seguenti attività:

  • Risorse testuali: estensione semi-automatica della CIRCSE Digital Library, in termini di testi lemmatizzati e annotati a livelli di parti del discorso, oltre che, in alcuni casi, annotati sintatticamente (treebank); realizzazione del livello di annotazione consistente nelle cosiddette Enhanced Dependencies per una selezione dei testi delle treebank della CIRCSE Digital Library;
  • Risorse Lessicali: estensione semi-automatica di una versione verificata di Latin WordNet; estensione semi-automatica del lessico di valenza Latin Vallex;
  • Linguistic Linked Open Data: allacciamento di nuove risorse alla LiLa Knowledge Base; inclusione di strumenti di Trattamento Automatico del Linguaggio nella Knowledge Base; raffinamento dell'interfaccia di ricerca LISP;
  • Strumenti di Trattamento Automatico del Linguaggio e Large Language Model: addestramento supervisionato e sviluppo di modelli per la disambiguazione automatica delle omografie in contesto in testi latini; fine-tuning di Large Language Model tramite il Knowledge Graph di LiLa.