Questa opera segue il curriculum 2021 della Association for Computing Machinery per specialisti in Scienze dei Dati, con l’obiettivo di costituire un “Bignami” della Scienza ed Ingegneria dei Dati e facilitare il percorso di formazione personale a partire da competenze specialistiche in Informatica o Matematica o Statistica per un lettore di lingua madre italiana.
Parte di una serie di testi, riepiloga prima di tutto la metodologia di lavoro standard CRISP DM utilizzata in questa opera e in progetti di Scienza dei Dati. Poichè questo testo utilizza Orange per gli aspetti applicativi, ne descrive l’installazione ed i widget.
La fase di modellizzazione dei dati viene considerata nell’ottica dell’apprendimento automatico riepilogando i tipi di apprendimento automatico, i tipi di modelli, i tipi di problemi e i tipi di algoritmi.
Sono descritti gli aspetti avanzati associati alla modellizzazione quali le funzioni di perdita e di ottimizzazione come la gradient descent, le tecniche per analizzare le prestazioni dei modelli come il Bootstrapping e la Cross Validation. Vengono analizzati gli scenari di deployment e le più comuni piattaforme, con esempi applicativi. Vengono proposti i meccanismi per automatizzare l’apprendimento automatico e per supportare l’interpretabilità dei modelli e dei risultati come Partial Dependence Plot, Permuted Feature Importance e altre.
Gli esercizi sono descritti con Orange e Python con l’uso della libreria Keras/Tensorflow.
Il testo è corredato di materiale di supporto ed è possibile scaricare gli esempi in Orange e i dati di prova.