Il Data Scientist che vorrei

L’era del Machine Learning è già iniziata e tutti ne siamo sovraeccitati. Ma occhio a partire con il piede sbagliato.

Stiamo velocemente entrando in un mondo in cui tutto può essere misurato e monitorato. Una volta che i dati vengono raccolti, un processo di comune interesse riguarda il Knowledge Discovery in Databases (KDD), che immagazzina i dati, li analizza, e ne interpreta i risultati per un determinato obiettivo.
In questo contesto, l’esplosione in termini di popolarità che il Machine Learning ha sperimentato nella ultima decade è sotto gli occhi di tutti coloro che si interessano di tecnologie IT e non solo.
Il Machine Learning è il fido compagno dell’Intelligenza Artificiale: se ne sente parlare ultimamente anche per il suo utilizzo nel contesto dei veicoli a guida autonoma, dove il Machine Learning viene incaricato, per esempio, di classificare nuovi oggetti sotto forma di immagini; a seconda della previsione, l’Intelligenza Artificiale farà delle scelte (per esempio evitare un altro veicolo, o impostare il limite di velocità leggendo la segnaletica esposta) e l’algoritmo di previsione “imparerà” dal risultato di queste scelte a seconda che la previsione sia corretta o meno.
Nell’ambito della previsione, per esempio, il grosso successo che stanno avendo le Foreste casuali e le Reti neurali (strumenti ampiamente utilizzati nel Machine Learning) sono sicuramente dovute sia alla maggiore efficienza degli algoritmi di stima, sia all’aumento della potenza di calcolo dei processori coinvolti, con risultati spesso stupefacenti. Non è anomalo, infatti, riuscire a stimare classificatori con accuratezza di previsione superiore al 90% su nuovi casi nei problemi di benchmark.
Il fatto è che generare dei risultati da un qualche pacchetto “out-of-the-shelf” di un qualche framework per l’analisi dei dati non necessita di una particolare preparazione informatica o statistica. Basta un tutorial di dieci minuti. Per questo motivo potrebbe sorgere la tentazione di trattare un terminale come oracolo, venerando l’output come materia inderogabile.
Quello che invece tipicamente accade, è che l’allenamento di un modello non è che una fase del più generale processo che è il KDD, che necessita dunque di una definizione del problema, di una estrazione dei dati di interesse e di una trasformazione di questi ultimi per i fini proposti. L’obiettivo del KDD è quello di acquisire, sulla base dei dati, conoscenza riguardo il mondo che ci circonda. Una conoscenza che si presenta sotto forma di una risposta precisa ad una domanda precisa, a cui non è sempre facile rispondere e la cui risposta è soggetta a variazioni nel tempo, senza tener conto delle difficoltà di stesura della domanda stessa, spesso formulata in modo sbagliato o confusa con altre domande.

“I checked it very thoroughly”, said the computer, “and that quite definitely is the answer. I think the problem, to be quite honest with you, is that you’ve never actually known what the question is.” – Douglas Adams, The Hitchhiker’s Guide to the Galaxy

È inevitabile, quindi, che l’utilizzo critico degli strumenti di Machine Learning passi attraverso non solo la conoscenza delle basi su cui questi strumenti lavorano, che sono matematica, statistica, logica e informatica, ma anche attraverso certe abilità come la comunicazione e la precisione, per evitare di lavorare su pianeti scollegati con i propri teammates.
Il Machine Learning, ma più nello specifico il Data Mining (se siete interessati alla questione semantica questo articolo ne spiega la differenza https://www.import.io/post/data-mining-machine-learning-difference), non è soltanto un insieme di algoritmi complessi che impiegano una vita ad arrivare a convergenza. Le soluzioni possono trovarsi a un passo da voi; capita che per rispondere ad una domanda basti una tabella di frequenza. Ma bisogna aver capito la domanda.
In conclusione, il mondo del Machine Learning ha sicuramente molto da offrire, ma il rischio che si corre, se si manca di buon senso, è quello di vivere nel magico mondo degli algoritmi, perdendo di vista il mondo che ci circonda.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

18 − 15 =

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.