The aim of the following contribution is to identify coreferences and thematic cores in the corpus Emigrantendeutsch in Israel (IS), using corpus analysis and man- ual annotation. We will focus on two interviews, that with Paul Avraham and Betti Alsberg (IS_00002) and that with Clara Bartnitzki (IS_00008) (see 2.1). The starting point for our considerations is the hypothesis that in interviews some referents, such as interviewees, appear independently of their respective thematic core, while other referents (and thus members of coreference chains), appear grouped in segments dedicated to specific thematic cores. Firstly, we believe that being able to automatically create coreference chains in narrative interviews is important in order to more easily identify and extract text segments in which cer- tain entities or persons are mentioned. As already shown in Flinz/Ruppenhofer 2021, Named Entity Recognition (NER) systems can identify names of people or organizations. However, they usually do not associate such mentions with coref- erential mentions that have the form of ordinary nouns or pronouns (see Li et al. 2020; Nadeau/Sekine 2007). Only additional annotation can generate coreferen- tial chains. Secondly, coreference can be linked to the segmentation of interviews by thematic cores. Since it contributes to the cohesion of the text (see Halliday/ Hasan 1976), we can make the hypothesis that the way in which the elements of the coreferential chains are distributed can provide clues to thematic segmenta- tion. To this end, we would also like to examine whether the coreference struc- tures of the interviews may reveal new facets not otherwise easily discernible

Obiettivo del contributo è di identificare coreferenze e nuclei tematici nel corpus Emigrantendeutsch in Israel (IS), utilizzando strumenti di analisi di corpora e annotazione manuale. Ci concentriamo sull'intervista a Paul Avraham e Betti Alsberg (IS_00002) e sull'intervista a Clara Bartnitzki (IS_00008) (cfr. 2.1). Punto di partenza delle nostre considerazioni è l’ipotesi che nelle interviste alcuni referenti, come gli intervistati, compaiano indipendentemente dal rispettivo nucleo tematico, mentre altri referenti (e quindi membri di catene di coreferenza), compaiano raggruppati in segmenti dedicati a nuclei tematici specifici. In primo luogo, riteniamo infatti che il poter creare automaticamente catene di coreferenza nelle interviste narrative sia importante per poter identificare ed estrarre più facilmente i segmenti di testo in cui sono menzionate determinate entità o persone. Come già mostrato in Flinz/Ruppenhofer (2021), i sistemi di Named Entity Recognition (NER) possono identificare nomi di persone o organizzazioni. Tuttavia, di solito non associano tali menzioni a menzioni coreferenziali che hanno la forma di sostantivi o pronomi ordinari (cfr. Li et al. 2020; Nadeau/Sekine 2007). Solo un’annotazione aggiuntiva può generare catene coreferenziali. In secondo luogo, la coreferenza può essere collegata alla segmentazione delle interviste per nuclei tematici. Poiché essa contribuisce alla coesione del testo (cfr. Halliday/Hasan 1976), possiamo ipotizzare che il modo in cui sono distribuiti gli elementi delle catene coreferenziali possa fornire indizi sulla segmentazione tematica. A tal fine, esaminiamo anche se le strutture coreferenziali delle interviste possano evidenziare nuove sfaccettature altrimenti non facilmente individuabili.

Koreferenz und thematische Schwerpunkte in den Interviews des Korpus IS / C. Flinz, J. Ruppenhofer. - In: ANNALI - ISTITUTO UNIVERSITARIO ORIENTALE. SEZIONE GERMANICA. - ISSN 1124-3724. - 33:(2023), pp. 383-414. [10.6093/germanica.v0i33.10752]

Koreferenz und thematische Schwerpunkte in den Interviews des Korpus IS

C. Flinz
;
2023

Abstract

The aim of the following contribution is to identify coreferences and thematic cores in the corpus Emigrantendeutsch in Israel (IS), using corpus analysis and man- ual annotation. We will focus on two interviews, that with Paul Avraham and Betti Alsberg (IS_00002) and that with Clara Bartnitzki (IS_00008) (see 2.1). The starting point for our considerations is the hypothesis that in interviews some referents, such as interviewees, appear independently of their respective thematic core, while other referents (and thus members of coreference chains), appear grouped in segments dedicated to specific thematic cores. Firstly, we believe that being able to automatically create coreference chains in narrative interviews is important in order to more easily identify and extract text segments in which cer- tain entities or persons are mentioned. As already shown in Flinz/Ruppenhofer 2021, Named Entity Recognition (NER) systems can identify names of people or organizations. However, they usually do not associate such mentions with coref- erential mentions that have the form of ordinary nouns or pronouns (see Li et al. 2020; Nadeau/Sekine 2007). Only additional annotation can generate coreferen- tial chains. Secondly, coreference can be linked to the segmentation of interviews by thematic cores. Since it contributes to the cohesion of the text (see Halliday/ Hasan 1976), we can make the hypothesis that the way in which the elements of the coreferential chains are distributed can provide clues to thematic segmenta- tion. To this end, we would also like to examine whether the coreference struc- tures of the interviews may reveal new facets not otherwise easily discernible
Obiettivo del contributo è di identificare coreferenze e nuclei tematici nel corpus Emigrantendeutsch in Israel (IS), utilizzando strumenti di analisi di corpora e annotazione manuale. Ci concentriamo sull'intervista a Paul Avraham e Betti Alsberg (IS_00002) e sull'intervista a Clara Bartnitzki (IS_00008) (cfr. 2.1). Punto di partenza delle nostre considerazioni è l’ipotesi che nelle interviste alcuni referenti, come gli intervistati, compaiano indipendentemente dal rispettivo nucleo tematico, mentre altri referenti (e quindi membri di catene di coreferenza), compaiano raggruppati in segmenti dedicati a nuclei tematici specifici. In primo luogo, riteniamo infatti che il poter creare automaticamente catene di coreferenza nelle interviste narrative sia importante per poter identificare ed estrarre più facilmente i segmenti di testo in cui sono menzionate determinate entità o persone. Come già mostrato in Flinz/Ruppenhofer (2021), i sistemi di Named Entity Recognition (NER) possono identificare nomi di persone o organizzazioni. Tuttavia, di solito non associano tali menzioni a menzioni coreferenziali che hanno la forma di sostantivi o pronomi ordinari (cfr. Li et al. 2020; Nadeau/Sekine 2007). Solo un’annotazione aggiuntiva può generare catene coreferenziali. In secondo luogo, la coreferenza può essere collegata alla segmentazione delle interviste per nuclei tematici. Poiché essa contribuisce alla coesione del testo (cfr. Halliday/Hasan 1976), possiamo ipotizzare che il modo in cui sono distribuiti gli elementi delle catene coreferenziali possa fornire indizi sulla segmentazione tematica. A tal fine, esaminiamo anche se le strutture coreferenziali delle interviste possano evidenziare nuove sfaccettature altrimenti non facilmente individuabili.
Israelkorpus; coreferenza; entità; nuclei tematici; coesione
Settore L-LIN/14 - Lingua e Traduzione - Lingua Tedesca
2023
http://www.serena.unina.it/index.php/aiongerm/article/view/10752
Article (author)
File in questo prodotto:
File Dimensione Formato  
Flinz_Ruppenhofer_AION.pdf

accesso aperto

Tipologia: Publisher's version/PDF
Dimensione 922.83 kB
Formato Adobe PDF
922.83 kB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2434/1027050
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact