Umano vs Macchina

Ascolta l'articolo

Introduzione

Nello scorso articolo si diceva: macchina vs umano 90 a 90 … sì, ma non è la fine del discorso. Dopo esserci dati la nostra brava spiegazione ed aver messo a riparo la nostra “macchina” dalle possibili critiche (“se neanche tra addestratori riusciamo a metterci d’accordo, come possiamo pretendere che la rete faccia meglio”?), ci sembrava che ci fosse ancora qualcosa da capire meglio e, soprattutto, volevamo capire come migliorare, anche perché oramai si trattava di mettere il sistema in produzione: ok, il 90% ci basta, ma già sappiamo, se n’è parlato in uno scorso articolo, che c’è sempre il rischio di una degradazione delle prestazioni, quindi è opportuno cercare di migliorare.

Nuova Esigenza del Cliente

Ancora una volta, ci è venuto in soccorso il cliente (quando si dice che tra cliente e fornitore bisogna creare una partnership …), tra l’altro tirando fuori una nuova esigenza:

[cliente] ora che abbiamo una discreta capacità di riconoscere puntualmente se in una foto si vede un difetto o no, quello che vorremmo sapere è se un lotto di materiale sia buono oppure no.

[fornitore] ma certo: che problema c’è? Analizzando i risultati puntuali relativi ad ogni foto, che sono già classificate col nome del lotto, siamo sicuramente in grado di dare una valutazione complessiva: diteci come fate voi attualmente a dare questa valutazione.

[cliente] ah, beh, è semplice: un nostro tecnico guarda il prodotto (non le singole fotografie, ndr) ed esprime un giudizio di conformità sul lotto.

[fornitore] ottimo: dateci questi giudizi e noi cercheremo di trovare i giusti pesi da dare alle valutazioni sulle singole fotografie per ottenere la valutazione del lotto.

Problemi di Valutazione

La cosa continua secondo “copione”, ci danno le valutazioni dei vari lotti e noi le mettiamo a confronto con le valutazioni date da umani e macchina per trovare l'”algoritmo” di validazione del lotto. Solo che, tanto per cambiare … c’è qualcosa che non torna 🙁. Mentre in generale, tutto sommato, le cose vanno abbastanza bene, ci sono due punti che attirano la nostra attenzione.

Valutazione delle Non Conformità

Il primo è che le valutazioni di non conformità dei lotti sono poche (di per sé è una buona notizia: vuol dire che la produzione procede bene), ma proprio su quelle la valutazione della macchina sembra poco precisa, quando invece l’obiettivo è proprio che la maggior precisione la si vorrebbe sui lotti non conformi, anche al costo di avere un numero maggiore di “falsi positivi“. Questo è un super classico della valutazione automatica dei difetti: se la macchina segnala un difetto che non c’è (falso positivo), è un piccolo fastidio abbastanza sopportabile: si fa un ulteriore controllo e si aggiusta il giudizio.

Se invece il difetto c’è e non viene visto, allora possono essere guai seri, il difetto entra magari in un semilavorato che finisce in un prodotto, che viene venduto … e solo a quel punto il prodotto si rivela non conforme: figuraccia col cliente, risarcimento o intervento in garanzia, comunque costoso, “brand” deteriorato! Il problema è se, come è capitato in questo caso, per evitare i falsi negativi generi una marea di falsi positivi, che singolarmente saranno anche solo piccoli fastidi, ma presi tutti assieme …

Concentrazione degli Errori in un Mese Specifico

Il secondo è che le valutazioni di non conformità, e quindi gli errori nella valutazione fatta sula base delle valutazioni puntuali, umane o della macchina, erano molto concentrate in un mese specifico. Domandiamo: “non è che in quel mese è successo qualcosa di particolare”? Risposta: “no: probabilmente ci sono semplicemente arrivati dei lotti di materiale difettosi; è proprio quello che vorremmo che il sistema ci aiutasse ad individuare”.

Eh, sì: ma allora perché la cosa non traspare dalle fotografie? Bisogna andare più a fondo. A questo punto organizziamo una riunione in cui sono presenti un po’ tutti gli attori e cerchiamo di mettere al vaglio le possibili ipotesi: quando viene fatta la valutazione complessiva si prendono in esame anche altre informazioni, che non traspaiono sule fotografie? Il famoso 90% (o meglio, il 10% che rimane) è in grado di offuscare il giudizio fino a questo punto? Nella valutazione umana entrano in ballo aspetti soggettivi non trasferibili ad una macchina (almeno fintanto che non sia in grado di vivere dei sentimenti)?

Collaborazione e Conclusioni

Anche qui, va sottolineato la collaboratività di tutti: poteva essere una specie di “caccia al colpevole”, macchina o umano che sia, mentre invece è stato sufficiente focalizzare il problema, “stringerlo all’angolo”, come dico io, che quando devo sintetizzare in poche parole il mio lavoro dico: “risolvo problemi”, per arrivare ad una conclusione banale, ma significativa e sicuramente molto più utile di un “capro espiatorio”: nel periodo in cui si sono rilevate le maggiori non conformità la persona incaricata aveva ricevuto l’indicazione di essere molto scrupoloso e, appunto, evitare il più possibile che ci fossero falsi negativi; questo aveva determinato un alto numero di falsi positivi che poi qualcun altro aveva ripreso in considerazione. Da questa esperienza, avevano poi deciso di dare delle valutazioni meno “severe”.

Umano o Macchina?

E quindi? Cosa è meglio: umano o macchina? La domanda, a mio avviso, è semplicemente sbagliata: umani e macchine hanno caratteristiche diverse, che si adattano a situazioni diverse e danno il loro meglio quando sono affiancati a svolgere un compito in cui ciascuno è messo in condizione di dare il meglio. Una “learning organization” è proprio un’organizzazione che fa questo e lo fa sempre meglio, perché impara sia da quello che fa in modo corretto, e lo ripete, sia da quello che fa in modo errato, e non lo ripete più, tra cui anche mettere o non mettere ciascuno nel ruolo che più gli è congeniale.