Kenen luokituksiin sinun pitäisi luottaa? IMDB, Rotten Tomatoes, Metacritic vai Fandango?

Datatieteilijä tutkii

Pitäisikö sinun katsoa elokuvaa? No, on otettava huomioon monia tekijöitä, kuten ohjaaja, näyttelijät ja elokuvan budjetti. Suurin osa meistä perustaa päätöksemme arvosteluun, lyhyeen traileriaan tai vain tarkistamalla elokuvan luokituksen.

On olemassa muutamia hyviä syitä, joiden vuoksi haluat välttää arvostelujen lukemista tai perävaunun katsomista, vaikka ne tuovat paljon enemmän tietoa kuin luokitus.

Ensinnäkin haluat ehkä välttää täysin spoilereita, ei väliä kuinka pieniä. Ymmärrän, että!

Toiseksi voi olla, että haluat vaikuttamattoman kokemuksen elokuvan katselemisesta. Tämä pätee yleensä vain arvosteluihin, jotka on ripoteltu kehyksillä, kuten "tämä on elokuva maailmankaikkeuden monimutkaisuudesta" tai "tämä elokuva ei todellakaan ole rakkaudesta". Kun nämä kehykset koodataan lyhytaikaiseen muistiin, on todella vaikeaa estää niitä häiritsemästä omaa elokuvakokemustasi.

Toinen hyvä syy on, että jos olet väsynyt tai kiire, et ehkä halua lukea arvostelua, puhumattakaan 2 minuutin traileria.

Joten numeerinen elokuvaluokitus näyttää olevan hyvä ratkaisu monissa tilanteissa, melko monille ihmisille.

Tämän artikkelin tarkoituksena on suositella yhtä verkkosivustoa tarkan elokuvaluokituksen saamiseksi nopeasti, ja se tarjoaa vankan, tietoihin perustuvan perustelun sille.

Parhaan kriteerit

Tällaisen suosituksen tekeminen on paljon kuin sanoa "tämä on paras paikka etsiä elokuvan luokitusta", joka on arvioiva lausunto, joka perustuu joihinkin kriteereihin, joita käytetään määrittämään mikä on parempi, mikä huonompi tai huonoin ja mikä on parasta , tässä tapauksessa. Suositteluni varten käytän yhtä ainoaa kriteeriä: normaalijakauma.

Paras tapa etsiä elokuvan luokitusta on nähdä, kenen luokitukset ovat jakautuneet kaavaan, joka muistuttaa eniten tai on identtinen normaalijakauman mallin kanssa, mikä on tämä: annetaan joukko arvoja, jotka sijaitsevat tietyllä aikavälillä , suurin osa heistä on sen keskellä, ja muutamat muut tuon ajan ääripäissä. Yleensä näin normaali (kutsutaan myös Gaussin) jakaumaksi näyttää:

Mikä on tämän kriteerin taustalla oleva syy? No, omasta kokemuksestani, joka koostuu useista sadoista elokuvista, voin kertoa, että olen nähnyt:

  • muutama erinomainen, joita olen katsellut useita kertoja
  • pari, joka oli todella kauhistuttavaa ja sai minut pahoillani heidän katseluunsa vietetystä ajasta
  • ja koko joukko keskimääräisiä, joista useimpia en edes muista enää juoni.

Uskon, että useimmilla ihmisillä - olipa kriitikoilla, sinifiileillä tai vain tavallisilla elokuvanäyttäjillä - on ollut samanlainen kokemus.

Jos elokuvan luokitukset todellakin ilmaisevat elokuvan laatua, meidän pitäisi nähdä sama malli molemmille.

Ottaen huomioon, että suurin osa meistä arvioi suurimman osan elokuvista olevan keskitasoa, meidän pitäisi nähdä sama malli, kun analysoimme elokuvien luokituksia. Samanlainen logiikka pätee huonoihin ja hyviin elokuviin.

Jos et ole vielä vakuuttunut siitä, että kuvioiden välillä pitäisi olla tällainen vastaavuus, mieti yksittäisen elokuvan luokitusten jakautumista. Kuten monet ihmiset arvioivat elokuvan, ei ole uskon harppaus olettaa, että useimmiten heitä on monia, joilla on samanlaiset mieltymykset. He ovat yleensä yhtä mieltä siitä, että elokuva on joko huono, keskimääräinen tai hyvä (määrittelen myöhemmin nämä kvalitatiiviset arvot). Lisäksi on muutama muu, joka arvioi elokuvan yhdellä kahdesta muusta laadullisesta arvosta.

Jos visualisoimme yksittäisen elokuvan kaikkien luokitusten jakauman, näemme todennäköisesti, että yksi alue muodostuu yhdelle alueista, jotka vastaavat matalaa, keskimääräistä tai korkeaa luokitusta.

Jos useimpia elokuvia pidetään keskiarvoina, keskimääräisen alueen ympärillä olevalla klusterilla on suurin todennäköisyys esiintyä, ja kahdella muulla klusterilla on pienempi (mutta silti merkittävä) todennäköisyys. (Huomaa, että kaikki nämä todennäköisyydet voidaan periaatteessa ilmaista määrällisesti, mutta tämä vaatisi paljon tietoa ja voisi muuttaa tämän artikkelin kirjaksi.)

Vähiten todennäköinen olisi yhtenäinen jakauma, jossa ei ole klustereita, ja ihmisten mieltymykset jakautuvat lähes tasaisesti kolmen laadullisen arvon kesken.

Kun otetaan huomioon nämä todennäköisyydet, luokitusten jakautumisen riittävän suurelle elokuvanäytteelle tulisi olla sellainen, että keskimääräinen alue on tylsä, ja jonka reunat ovat pienenevän korkeuden (taajuuden) palkit, jotka muistuttavat siis normaalijakaumaa.

Jos sinulla on ollut tätä kaikkea vaikea ymmärtää, harkitse tätä kuvaa:

IMDB, Rotten Tomatoes, Fandango vai Metacritic?

Nyt kun meillä on kriteeri työskennellä, sukelkaamme dataan.

Siellä on paljon verkkosivustoja, jotka keksivät omat elokuvaluokituksensa. Olen valinnut vain neljä, lähinnä niiden suosion perusteella, jotta voisin saada luokituksia elokuville, joilla on hyväksyttävä määrä ääniä. Hyviä voittajia ovat IMDB, Fandango, Rotten Tomatoes ja Metacritic.

Viimeiset kaksi, olen keskittynyt vain heidän ikonin Ikärajatyypit - nimittäin Tomatometer ja metascore -lähinnä siksi, että nämä näkyvät käyttäjille paremmin jokaisella verkkosivustolla (mikä tarkoittaa, että niiden löytäminen on nopeampaa). Nämä jaetaan myös kahdella muulla verkkosivustolla (metascore jaetaan IMDB: ssä ja tomatometri Fandangossa). Näiden ikonisten luokitusten lisäksi molemmilla verkkosivustoilla on myös vähemmän esillä oleva luokitustyyppi, johon vain käyttäjät voivat osallistua.

Olen kerännyt luokituksia joistakin eniten äänestetyistä ja arvostetuimmista elokuvista vuosina 2016 ja 2017. Puhdistetussa aineistossa on luokituksia 214 elokuvalle, ja se voidaan ladata tältä Github-repolta.

En ole kerännyt luokituksia elokuville, jotka on julkaistu ennen vuotta 2016, yksinkertaisesti siksi, että Fandangon luokitusjärjestelmässä on tapahtunut pieni muutos pian Walt Hickeyn analyysin jälkeen, johon viittaan myöhemmin tässä artikkelissa.

Tiedän, että pienen otoksen kanssa työskenteleminen on riskialtista, mutta ainakin tämä kompensoidaan saamalla viimeisin tilannekuva luokitusten jakautumisesta.

Ennen jakaumien piirtämistä ja tulkintaa anna minun määritellä aikaisemmin käyttämäni kvalitatiiviset arvot: asteikolla 0-10 huono elokuva on jossain välillä 0 ja 3, keskimäärin 3 ja 7 ja hyvä 7 ja 10 .

Ota huomioon laatu ja määrä. Jotta se olisi havaittavissa seuraavassa, viittaan luokituksiin (määrään) matalina, keskiarvoina tai korkeina. Kuten aiemmin, elokuvan laatu ilmaistaan ​​huonona, keskimääräisenä tai hyvänä. Jos olet huolissasi siitä, että ”keskimääräinen” termi on sama, älä, koska huolehdin siitä, että vältän epäselvyyksiä.

Katsotaanpa nyt jakelut:

Yksinkertaisella silmäyksellä voidaan huomata, että metascore-histogrammi (jota tällaista kuvaajaa kutsutaan) muistuttaa eniten normaalijakaumaa. Sillä on paksu klusteri keskimääräisellä alueella, joka koostuu epäsäännöllisen korkeuden tankoista, mikä tekee huipusta ei tylsä ​​eikä terävä.

Ne ovat kuitenkin lukuisampia ja pitempiä kuin palkit kahdella muulla alueella, joiden korkeus pienenee kohti äärimmäisyyksiä enemmän tai vähemmän asteittain. Kaikki nämä osoittavat selvästi, että suurimmalla osalla metaskooreista on keskiarvo, mikä on melkein mitä etsimme.

IMDB: n tapauksessa suurin osa jakautumisesta on myös keskimääräisellä alueella, mutta korkeimpien keskiarvojen suhteen on ilmeinen vinous. Korkean luokituksen alue näyttää samanlaiselta kuin mitä odotettaisiin normaalijakaumasta siinä histogrammin osassa . Silmiinpistävä piirre on kuitenkin se, että alhaisia ​​elokuvamääriä edustava alue on täysin tyhjä, mikä herättää suuren kysymysmerkin.

Aluksi laitoin syytteen pieneen otokseen ajattelemalla, että suurempi tekisi enemmän oikeutta IMDB: lle. Onneksi löysin valmiin tietojoukon Kagglesta, joka sisältää IMDB-luokituksen 4917 eri elokuvalle. Suureksi yllätyksekseni jakelu näytti tältä:

Jakelun muoto näyttää melkein samalta kuin 214 elokuvaa sisältävän näytteen muoto, lukuun ottamatta matalien luokitusten aluetta, joka on tässä tapauksessa heikosti 46 elokuvaa (4917: stä). Suurin osa arvoista on edelleen keskimääräisellä alueella, mikä tekee IMDB-luokituksesta syytä harkita tarkemmin suosituksen antamiseksi, vaikka on selvästi vaikea kilpailla metascoreen tällä vinolla.

Joka tapauksessa, tässä lopputuloksessa on todella hienoa, että sitä voidaan käyttää vahvana perusteena väitteelle, jonka mukaan 214 elokuvan otos on melko edustava koko väestölle. Toisin sanoen nyt on suurempi luottamus siihen, että tämän analyysin tulokset olisivat samat - tai ainakin samanlaiset - saavutetut tulokset, jos analysoitaisiin ehdottomasti kaikkien neljän verkkosivuston elokuvien luokitukset.

Tämän lisääntyneen luottamuksen myötä siirrymme Fandangon luokitusten jakauman tutkimiseen, mikä ei näytä muuttuneen paljon Hickeyn analyysin jälkeen. Vino on edelleen näkyvästi kohti elokuvien luokitteluspektriä, jossa suurin osa luokituksista sijaitsee. Keskimääräisten luokitusten alemman puoliskon alue on täysin tyhjä, aivan kuten matalien luokitustenkin alue. Voidaan helposti päätellä, että jakauma on melko kaukana kriteeristäni. Näin ollen en harkitse sitä enempää mahdollisesta suosituksesta.

(Lupaan, että ylöspäin vierittämisen kärsimys loppuu pian. On paljon helpompaa verrata jakaumia, jos ne sijoitetaan lähelle toisiaan sen sijaan, että ne hajautettaisiin artikkeliin.)

Lopuksi tomaattimittarin jakauma on yllättäen tasainen ja näyttäisi jopa tasaisemmalta erilaisella nosto-strategialla (binning-strategia määritetään pylväiden kokonaismäärällä ja niiden alueilla; voit pelata näillä kahdella parametrilla, kun luot histogrammia) .

Tätä jakaumaa ei ole helppo tulkita kontekstissa, koska tomaattimittari ei ole klassinen luokitus, vaan edustaa kriitikoiden prosenttiosuutta, jotka antoivat positiivisen arvostelun elokuvalle. Tämä tekee siitä sopimattoman huonolle keskiarvolle-hyvälle laatukehykselle, koska se tekee elokuvista joko hyviä tai huonoja. Joka tapauksessa luulen, että sen pitäisi silti kiehua samaan normaaliin levitykseen, sillä useimmissa elokuvissa on kohtuullinen ero positiivisten arvostelujen ja negatiivisten arvostelujen välillä (jolloin arvosanat ovat 30–70% positiivisia), ja harvoilla elokuvilla, joilla on huomattavasti suurempi ero tavalla tai toisella.

Kun otetaan huomioon viimeinen huomio ja jakauman muoto, tomaattimittari ei täytä kriteeriäni. Se voisi olla, että suurempi näyte tekisi siitä enemmän oikeudenmukaisuutta, mutta silti olisin suositella sitä, tekisin sen kanssa joitakin varauksia, koska epämääräisiä positiivisia tai negatiivisia luokitusjärjestelmä.

Tässä analyysin vaiheessa voisin sanoa, että tarkastelemalla jakaumia suosittelen metaskooria.

IMDB: n jakauma näyttää kuitenkin olevan myös harkitsemisen arvoinen, varsinkin jos nipistät hieman luokitusväliä kolmelle laadulliselle luokalle (aikavälit, jotka itse määrittelin, enemmän tai vähemmän mielivaltaisesti). Tästä näkökulmasta metascoreen suositteleminen tekemällä enimmäkseen visuaalinen tutkimus ei selvästikään riitä.

Joten yritän rajata nämä kaksi kvantitatiivisella menetelmällä.

Ajatuksena on käyttää Fandango-muuttujaa negatiivisena viitteenä ja määrittää sitten, mikä muuttuja on IMDB-luokituksesta ja metascoreista vähiten korreloinut sen kanssa (kutsun näitä muuttujia, koska ne voivat ottaa erilaisia ​​arvoja - esimerkiksi metascore on muuttuja, koska se vaatii erilaisia ​​arvoja elokuvasta riippuen).

Lasken vain joitain korrelaatiokertoimia, ja suosittelen muuttujaa, jolla on pienin arvo (selitän sitten, kuinka nämä korrelaatiokertoimet toimivat). Mutta ennen sitä haluaisin perustella lyhyesti Fandango-muuttujan valitsemisen negatiiviseksi viitteeksi.

Fandangon käyttäjät rakastavat elokuvia liikaa

Yksi syy tähän valintaan on, että Fandangon elokuvaluokitusten jakauma on kauimpana normaalista, sillä siinä on ilmeinen vino suuntaus elokuvien luokitusspektrin yläosaan.

Toinen syy on Walt Hickeyn analyysin jättämä epäilys pilvi Fandangon ympärillä. Lokakuussa 2015 hän oli myös hämmentynyt samanlaisesta jakelusta ja huomasi, että Fandangon verkkosivustolla numeeriset arvosanat pyöristettiin aina seuraavaan korkeimpaan puolitähteen, ei lähimpään (esimerkiksi elokuvan keskimääräinen luokitus olisi 4,1). on pyöristetty 4,5 tähteen 4,0 sijasta).

Fandango-tiimi korjasi puolueellisen luokitusjärjestelmän ja kertoi Hickeylle, että luokituslogiikka oli pikemminkin "ohjelmistovirhe" heidän verkkosivustollaan ja osoitti kohti puolueetonta järjestelmää mobiilisovelluksessaan. (Lisätietoja tästä Hickeyn artikkelista.) Oikaisu muutti joitain tilastollisia parametreja parempaan suuntaan, mutta ei tarpeeksi vakuuttamaan minua toimimasta Fandango-muuttujan kanssa negatiivisena viitteenä.

Näin muutos näyttää:

Lähennetään nyt Fandangoa:

Mikä on metaskoreen ja IMDB-luokituksen välillä vähiten korreloinut Fandango-luokituksen kanssa?

Vähiten korreloi Fandango-luokituksen kanssa metascore. Sen Pearsonin r- arvo on 0,38 Fandangoon nähden, kun taas IMDB-luokituksen arvo on 0,63.

Anna minun selittää tämä kaikki.

Kahden muuttujan muuttuessa erilaisista arvoista riippuen ne korreloivat, jos molempia muutoksia vastaava malli on olemassa. Korrelaation mittaaminen tarkoittaa yksinkertaisesti sen mittaamista, missä määrin tällainen malli on.

Yksi tapa suorittaa tämä toimenpide on laskea Pearsonin r. Jos arvo on +1,0, se tarkoittaa täydellistä positiivista korrelaatiota, ja jos se on -1,0, se tarkoittaa täydellistä negatiivista korrelaatiota.

Muuttujien korrelaatioaste pienenee, kun Pearsonin r lähestyy 0, sekä negatiiviselta että positiiviselta puolelta.

Katsotaanpa parempi visualisoida tämä:

Yllä olevan abstraktion asettamiseksi kontekstiin, jos verrataan kuinka kahden luokitustyypin arvot muuttuvat - sanotaan Fandangon ja IMDB: n -, voimme määrittää, missä määrin molempia muutoksia vastaava kuvio on olemassa.

Kun otetaan huomioon juuri mainitut korrelaatiokertoimet, Fandangon ja IMDB: n välillä on mallia enemmän kuin Fandangon ja metascoreen. Molemmat kertoimet ovat positiivisia, ja korrelaation sanotaan sellaisenaan olevan positiivinen, mikä tarkoittaa, että Fandangon luokitusten noustessa myös IMDB: n luokitukset nousevat yleensä enemmän kuin metaskoorit.

Toisin sanoen jokaiselle Fandangon elokuvaluokitukselle on todennäköisempää, että metascore eroaa siitä enemmän kuin IMDB-luokitus.

Tuomio: käytä Metacriticin metascore

Kaiken kaikkiaan suosittelen tarkistamaan metascore aina kun etsit elokuvan luokitusta. Näin se toimii ja sen haittapuolet.

Lyhyesti sanottuna metascore on painotettu keskiarvo monista arvostetuilta kriitikoilta tulleista arvosteluista. Metacritic-tiimi lukee arvostelut ja antaa kullekin 0–100 pistemäärän, jolle annetaan sitten paino, lähinnä katsauksen laadun ja lähteen perusteella. Löydät lisää heidän luokitusjärjestelmästään täältä.

Haluan vain tuoda esiin muutamia metascore-haittoja:

  • Painotuskertoimet ovat luottamuksellisia, joten et näe, missä määrin kukin arvostelu laskettiin metascoreen.
  • Sinulla on vaikea löytää metascoreja vähemmän tunnetuille elokuville, jotka ilmestyivät ennen vuotta 1999, jolloin Metacritic luotiin.
  • Joitakin viimeaikaisia ​​elokuvia, joiden pääkieli ei ole englanti, ei edes luetella Metacriticissa. Esimerkiksi romanialaisia ​​elokuvia Two Lottery Tickets (2016) ja Eastern Business (2016) ei ole lueteltu Metacriticissa, kun taas ne ovat IMDB: ssä luokituksilla.

Muutama sana lisää

Yhteenvetona, tässä artikkelissa tein yhden suosituksen siitä, mistä etsiä elokuvan luokitusta. Suosittelin metascoreja kahden argumentin perusteella: sen jakauma muistuttaa eniten normaalia ja se on vähiten korreloinut Fandango-luokituksen kanssa.

Kaikki artikkelin kvantitatiiviset ja visuaaliset elementit ovat toistettavissa Pythonissa, kuten se näkyy tässä.

Kiitos lukemisesta! Ja hyvää elokuvamenetelmää!