• SEA Vision
  • Datalogic

L’opinione di un pioniere

Quando negli anni ‘80 si cominciò a disporre di potenti calcolatori capaci di trattare in tempi non troppo lunghi grandi masse di dati si pensò di utilizzare anche le immagini come sorgente di informazioni da utilizzare nell’ambito dell’intelligenza artificiale. Erano tempi di grandi speranze e, come si sarebbe visto poi, di illusioni, tra cui quella che le immagini effettivamente ottenibili fossero sufficientemente buone e non come realmente sono, affette da numerosi problemi: distorsioni, aberrazioni varie, ombre, scarsa latitudine di posa, mosso, colori errati, scarsa profondità di campo, risoluzione insufficiente.

Tetraedro elevato vuoto Leonardo da Vinci, illustrazioni per il De Divina Proportione di Luca Pacioli.

Negli stessi anni si sviluppò la Computer Graphic, che si posizionerà in parallelo con la Computer Vision. Effettivamente, se lo scopo principale della Computer Graphic è quello del rendering fotorealistico di oggetti perfettamente conosciuti in quanto disegnati con programmi CAD, il problema della Computer Vision è un problema “inverso”, ovvero quello di ricavare la conoscenza completa di un oggetto dalla sua immagine. Questo però è un problema tipicamente sottodefinito, il che comporta che vi siano infinite possibili soluzioni. Appare ovvio che le soluzioni possono essere limitate solo attraverso l’attivazione di condizioni assai riduttive: un certo numero di punti riconoscibili in un certo numero di immagini prese da punti di vista differenti. Purtroppo i punti adatti sono solo quelli detti invarianti prospettici, ovvero massimi e minimi rispetto alla corda, selle, vertici. I primi sono imprecisi per natura, i vertici sembrerebbero andar meglio. L’esperienza insegna però che i tre spigoli di un triedro nelle immagini non si incontrano mai in un solo punto, bensì in tre. Riunirli in un solo punto significa scegliere un’operazione geometrica tra le varie possibili (baricentro, centro del cerchio individuato dai tre punti, minime distanze etc.) e ciò è un puro atto di fede. Eppure i punti calcolati possono essere anche molto diversi. E poiché il più sofisticato metodo di calcolo ufficiale prevede un passaggio all’infinito, un piccolo, inevitabile, errore iniziale rimbalza in un errore rilevante. Gli studiosi si sono impegnati a ridurlo escogitando decine di metodi e scrivendo migliaia di equazioni, senza riuscire ad eliminarlo. Ammettendo di disporre di soluzioni sufficientemente valide per questo aspetto, occorre determinare quali tra le tante componenti grafiche estraibili da un frammento significativo d’immagine (colore, momenti…) siano effettivamente utili per il problema generale da trattare (per esempio misurazione, controllo, guida ecc.).
Per il passo finale, ovvero l’ottenimento dell’obiettivo, occorre poi scegliere e adattare uno dei tanti metodi di Intelligenza Artificiale. È possibile che un metodo poco efficiente ma ben adattato dia risultati migliori di un metodo più efficiente ma mal adattato. Per chiarire bene il concetto immaginiamo di adottare per la guida automatica di un’automobile un sistema con un giusto livello di reattività ma che adotti un’elevazione della telecamera tale che ne risulti una visione a grande distanza: valutare la posizione sulla carreggiata è quasi impossibile. Un sistema meno reattivo ma che guardi alla giusta distanza è sicuramente migliore. Ma anche la velocità è importante: la reattività ottimale dipende da essa e con essa varia la distanza di visione ottimale; naturalmente potremmo pensare anche ad un sistema adattativo in cui la distanza migliore viene trovata automaticamente dopo una serie di errori. Quanti incidenti possiamo accettare? Se valutiamo poi la stabilità del sistema, questa dipende anche dal sistema meccanico, dai pneumatici, dalla strada etc. In definitiva, non è l’immagine a condurre in primis, in quanto tra le infinite immagini disponibili al variare dell’elevazione bisogna ottenere la più adatta con un’azione meccanica. Del resto noi stessi non vedremmo proprio niente se non guidassimo con lo sguardo.
La conseguenza del discorso è che la precisione intrinseca è modesta, mentre le aziende possono vantare meritati successi: una contraddizione? No, dopo anni di ricerca scientifica mi sono convinto che la Computer Vision matematica non possa fornire soluzioni definitive, ma solo buoni indizi: poi è l’esperienza a valutarli, correggerli, associarli e così tradurli in parametri operativi, con un’azione assai simile a quella del buon medico.
Eugenio Castelli (da Contatto Elettrico, Gennaio – Febbraio 2014)

  • Sea Vision
  • Datalogic
Con il patrocinio di:
Anipla
Patrocinio Anipla
Patrocinio Cnosfap