Johdanto ROUGE: een ja miten sitä voidaan käyttää yhteenvetojen arvioimiseen

Johdanto ROUGE: een ja miten sitä voidaan käyttää yhteenvetojen arvioimiseen

ROUGE on lyhenne sanoista Recall-Oriented Understudy for Gisting Evaluation. Se on lähinnä joukko mittareita tekstien automaattisen yhteenvedon ja konekäännösten arvioimiseksi.

Se toimii vertaamalla tuottaa automaattisesti yhteenveto tai translaation vastaan joukko viite yhteenvetoja (tyypillisesti ihmisen tuottamat). Oletetaan, että meillä on seuraavat järjestelmä- ja viite-yhteenvedot:

Järjestelmän yhteenveto (mitä kone tuotti):

the cat was found under the bed

Viiteyhteenveto (kultastandardi - yleensä ihmisiltä):

the cat was under the bed

Jos tarkastellaan vain yksittäisiä sanoja, päällekkäisten sanojen määrä järjestelmän yhteenvedon ja viiteyhteenvedon välillä on 6. Tämä ei kuitenkaan kerro paljoa metrisenä. Hyvän kvantitatiivisen arvon saamiseksi voimme itse laskea tarkkuuden ja kutsua päällekkäisyyden avulla.

Yksinkertaisesti sanottuna muistutus (ROUGE-kontekstissa) viittaa siihen, kuinka suuren osan viite-yhteenvedostajärjestelmä tiivistelmä palautumassa syömällä. Jos harkitsemme vain yksittäisiä sanoja, se voidaan laskea seuraavasti:

Tässä esimerkissä takaisinveto olisi näin ollen:

Tämä tarkoittaa, että kaikki referenssiyhteenvedon sanat on kaapattu järjestelmän yhteenvedossa , mikä todellakin pätee tähän esimerkkiin. Voila!

Tämä näyttää todella hyvältä tekstin yhteenvetojärjestelmälle. Mutta se ei kerro sinulle tarinan toista puolta. Koneella luotu yhteenveto (järjestelmän yhteenveto) voi olla äärimmäisen pitkä, ja se sieppaa kaikki viittausyhteenvedon sanat. Mutta monet järjestelmän yhteenvedon sanat saattavat olla hyödyttömiä, mikä tekee yhteenvedosta tarpeettoman yksityiskohtaisen.

Tässä tulee esiin tarkkuus. Tarkkuuden kannalta mitä olennaisesti mitat, on se, kuinka suuri osa järjestelmän yhteenvedosta oli itse asiassa merkityksellistä tai tarpeen ? Tarkkuus mitataan seuraavasti:

Tässä esimerkissä tarkkuus olisi siten:

Tämä tarkoittaa yksinkertaisesti sitä, että 6 järjestelmän yhteenvedon 7 sanasta oli tosiasiallisesti merkityksellisiä tai tarpeen. Jos meillä olisi seuraava järjestelmän yhteenveto, toisin kuin yllä oleva esimerkki -

Järjestelmän yhteenveto 2:

the tiny little cat was found under the big funny bed

Tarkkuudesta tulee nyt:

Tämä ei näytä niin hyvältä, vai mitä? Tämä johtuu siitä, että yhteenvedossa on melko vähän tarpeettomia sanoja. Tarkkuus näkökulma tulee todella ratkaiseva, kun yrität luoda yhteenvedot, jotka ovat lyhyitä luonnossa. Siksi on aina parasta laskea sekä tarkkuus että palautus ja sitten raportoida F-mitta .

Jos yhteenvetosi pakotetaan jollakin tavalla ytimekkääksi joidenkin rajoitusten avulla, voit harkita pelkän palautuksen käyttöä, koska tarkkuus ei ole tässä tilanteessa vähemmän huolestuttava.

ROUGE-N: n, ROUGE-S: n ja ROUGE-L: n voidaan ajatella olevan järjestelmien yhteenvetojen ja viitteiden yhteenvetojen välillä verrattujen tekstien tarkkuus.

  • ROUGE-N - toimenpiteet yksikieliopillinen , kaksikieliopillinen , trigramja ylemmän asteen n-gramman päällekkäisyys
  • ROUGE-L - mittaa pisimmän sanasarjan LCS: n avulla. LCS: n käytön etuna on, että se ei vaadi peräkkäisiä vastaavuuksia, vaan peräkkäisiä vastaavuuksia, jotka heijastavat lauseiden sanajärjestystä. Koska se sisältää automaattisesti pisimmän peräkkäisen n-gramman, et tarvitse ennalta määritettyä n-gramman pituutta.
  • ROUGE-S - Onko lauseessa mikä tahansa sanapari järjestyksessä, sallien mielivaltaiset aukot. Tätä voidaan kutsua myös ohitukseksi grammoiksi. Esimerkiksi skip-bigram mittaa sanaparien päällekkäisyyttä, joiden sanojen välissä voi olla enintään kaksi aukkoa. Esimerkiksi lauseelle "kissa hatussa" skip-bigrams olisi "kissa sisään, kissa, kissa hattu, hatussa, hattu".

Esimerkiksi ROUGE-1 viittaa unigrammien päällekkäisyyteen järjestelmän yhteenvedon ja viiteyhteenvedon välillä. ROUGE-2 viittaa bigramien päällekkäisyyteen järjestelmän ja referenssiyhteenvetojen välillä.

Otetaan esimerkki ylhäältä. Sanotaan, että haluamme laskea ROUGE-2-tarkkuuden ja palauttaa tulokset.

Järjestelmän yhteenveto:

the cat was found under the bed

Viitteiden yhteenveto:

the cat was under the bed

Järjestelmän yhteenvetotiedot:

the cat, cat was, was found, found under, under the, the bed

Viiteyhteenveto Bigrams:

the cat, cat was, was under, under the, the bed

Yllä olevien bigramien perusteella ROUGE-2-kutsu on seuraava:

Pohjimmiltaan järjestelmän yhteenveto on palauttanut 4 bigramia viidestä bigramista referenssiyhteenvedosta, mikä on melko hyvä! Nyt ROUGE-2-tarkkuus on seuraava:

Täsmällisyys kertoo meille, että kaikista järjestelmän yhteenvedon bigrameista on 67% päällekkäisyyttä viiteyhteenvedon kanssa. Tämä ei myöskään ole liian huono. Huomaa, että kun yhteenvedot (sekä järjestelmä- että viiteyhteenvedot) pidentyvät ja pitenevät, päällekkäisiä bigrameja on vähemmän. Tämä pätee erityisesti abstraktin yhteenvedon tapauksessa, jossa et käytä lauseita suoraan yhteenvetona.

Syy, miksi ROUGE-1: tä käytettäisiin ROUGE-2: n kanssa tai yhdessä sen kanssa (tai muita tarkempia tarkkuuden ROUGE-mittareita), on myös osoittaa yhteenvedon tai käännöksen sujuvuus. Intuitio on, että jos seuraat tarkemmin viiteyhteenvedon sanajärjestystä, yhteenvetosi on itse asiassa sujuvampi.

Saat tarkempia tietoja näistä arviointitiedoista Linin artikkelista. Käytettävä toimenpide riippuu arvioitavasta tehtävästä. Jos työskentelet tiivistävän tiivistelmän kanssa, jossa on melko yksityiskohtaiset järjestelmä- ja viiteyhteenvedot, voi olla järkevää käyttää ROUGE-1 ja ROUGE-L. Hyvin tiivistä yhteenvetoa varten vain ROUGE-1 saattaa riittää, varsinkin jos käytät myös sanojen poistamista ja lopettamista.

Luettavat paperit

  • ROUGE: Paketti yhteenvetojen automaattiseen arviointiin