Chihuahua tai muffinssi? Etsin parasta tietokonenäkökäyttöliittymää

Tämä suosittu internet-meemi osoittaa hälyttävän samankaltaisuuden, joka on jaettu chihuahuojen ja muffinssien välillä. Nämä kuvat jaetaan yleisesti tekoälyn (AI) teollisuuden esityksissä (minä mukaan lukien).

Mutta yksi kysymys, jota en ole nähnyt kenenkään vastaavan, on kuinka hyvä nykyaikainen tekoäly poistaa epävarmuuden kuvasta, joka voisi muistuttaa chihuahua tai muffinia? Viihteen ja koulutuksen kannalta tutkin tätä kysymystä tänään.

Binaariluokittelu on ollut mahdollista perceptron-algoritmin keksimisestä vuonna 1957. Jos luulet, että tekoäly on nyt hypattu, New York Times kertoi vuonna 1958, että keksintö oli alku tietokoneelle, joka "pystyy kävelemään, puhumaan, näkemään, kirjoittaa, toistaa itseään ja olla tietoinen olemassaolostaan. " Vaikka perceptronikoneet, kuten Mark 1, on suunniteltu kuvan tunnistamiseen, todellisuudessa ne pystyvät erottamaan vain lineaarisesti erotettavissa olevat mallit. Tämä estää heitä oppimasta monimutkaisia ​​malleja, joita löytyy useimmista visuaalisista medioista.

Ei ihme, että maailma oli pettynyt ja tekoäly seurasi. Siitä lähtien monikerroksiset havainnot (suosittu 1980-luvulla) ja konvoluutioiset hermoverkot (Yann LeCunin vuonna 1998 edelläkävijä) ovat ylittäneet yksikerroksiset havainnot kuvien tunnistustehtävissä.

Suurten merkittyjen tietojoukkojen, kuten ImageNet, ja tehokkaan GPU-tietojenkäsittelyn avulla, kehittyneemmät hermoverkkoarkkitehtuurit, kuten AlexNet, VGG, Inception ja ResNet, ovat saavuttaneet huipputason suorituskyvyn tietokonenäkössä.

Tietokonenäön ja kuvan tunnistamisen sovellusliittymät

Jos olet koneoppimisinsinööri, on helppo kokeilla ja hienosäätää näitä malleja käyttämällä ennalta koulutettuja malleja ja painoja joko Keras / Tensorflow- tai PyTorch-laitteissa. Jos et ole mukava säätämään hermoverkkoja yksin, olet onnekas. Lähes kaikki johtavat teknologiajätit ja lupaavat startup-yritykset väittävät "demokratisoivan tekoälyä" tarjoamalla helppokäyttöisiä tietokonenäkökäyttöliittymiä.

Mikä on paras? Vastaamiseksi tähän kysymykseen sinun on määriteltävä selkeästi liiketoimintatavoitteesi, tuotteen käyttötapaukset, testitiedot ja menestystiedot, ennen kuin voit verrata ratkaisuja toisiinsa.

Vakavan tutkimuksen sijasta voimme ainakin saada korkean tason käsityksen kunkin alustan erilaisesta käyttäytymisestä testaamalla niitä leluongelmallamme erottaa chihuahua muffinista.

Testin suorittaminen

Tätä varten jaoin kanonisen meemin 16 testikuvaksi. Sitten käytän insinööri Gaurav Oberoin kirjoittamaa avointa lähdekoodia konsolidoimaan eri sovellusliittymien tulokset. Jokainen kuva työnnetään kuuden yllä luetellun sovellusliittymän läpi, jotka palauttavat ennustuksiksi korkean luottamuksen tunnisteet. Poikkeuksena ovat Microsoft, joka palauttaa sekä tarrat että kuvatekstit, ja Cloudsight, joka käyttää ihmisen ja tekoälyn hybriditekniikkaa palauttamaan vain yhden kuvatekstin. Siksi Cloudsight voi palauttaa erittäin tarkkoja kuvatekstejä monimutkaisille kuville, mutta käsittely kestää 10–20 kertaa kauemmin.

Alla on esimerkki tuotoksesta. Näet kaikkien 16 chihuahua vs. muffinssi -kuvien tulokset napsauttamalla tätä.

Kuinka hyvin sovellusliittymät tekivät? Muut kuin Microsoft, joka sekoitti tämän muffinssin täytetylle eläimelle, kaikki muut sovellusliittymät tunnistivat kuvan olevan ruoka. Mutta ei ollut sovittu siitä, oliko ruoka leipää, kakkua, keksejä vai muffineja. Google oli ainoa sovellusliittymä, joka tunnisti muffinin todennäköisimmäksi etiketiksi.

Katsotaanpa chihuahua-esimerkkiä.

Jälleen API: t menestyivät melko hyvin. Kaikki he tajusivat, että kuva on koira, vaikka muutama heistä kaipasi tarkkaa rotua.

Siellä oli kuitenkin varmoja epäonnistumisia. Microsoft palautti räikeästi väärän kuvatekstin kolme erillistä kertaa kuvailemalla muffinia joko pehmoksi tai nallekarhuksi.

Google oli perimmäinen muffinitunniste, joka palautti "muffinssi" korkeimmaksi luotettavuusmerkinnöksi kuudelle testisarjan seitsemästä muffinssikuvasta. Muut sovellusliittymät eivät palauttaneet "muffinssi" minkään muffinikuvan ensimmäiseksi tarraksi, vaan palauttivat vähemmän merkitykselliset tarrat, kuten "leipä", "eväste" tai "cupcake".

Huolimatta menestysketjustaan ​​Google epäonnistui tässä erityisessä muffinssikuvassa, palauttamalla ennusteena "kuono" ja "koirarotu ryhmä".

Jopa maailman edistyneimmät koneoppimisalustat laukaisevat hienostuneen chihuahua vs. muffinssi -haasteen. Ihmisen taapero voittaa syvällisen oppimisen, kun on selvitettävä, mikä on ruoka ja mikä Fido.

Joten mikä tietokonenäkökäyttöliittymä on paras?

Saadaksesi vastauksen tähän vaikeaan mysteeriin, sinun on mentävä TOPBOTSiin lukemaan alkuperäinen artikkeli kokonaisuudessaan!