Programmazione.it v6.4
Ciao, per farti riconoscere devi fare il login. Non ti sei ancora iscritto? Che aspetti, registrati adesso!
Info Pubblicit� Collabora Autori Sottoscrizioni Preferiti Bozze Scheda personale Privacy Archivio Libri Corsi per principianti Forum
Data Mining: Concepts and Techniques
Recensito da Francesco Argese il 11-02-2013 ore 12:13
Copertina ISBN: 9780123814791
Autori: Jiawei Han, Micheline Kamber, Jian Pei
Editore: Morgan Kaufmann
Lingua: Inglese
Anno: 2011
Pagine: 703
Allegati: Nessuno
A partire dai primi database ad oggi la quantit di dati disponibili cresciuta a dismisura. Mentre nei primi tempi l'obiettivo principale della memorizzazione era l'information retrieval ovvero l'estrazione di un dato dal database, negli ultimi anni cresciuta l'esigenza di estrarre conoscenza dalle basi di dati ovvero ricavare da una grande quantit di dati una informazione utile. La disciplina del data mining nata proprio per trovare soluzioni a tale problematica e studia strutture, tecniche ed algoritmi che consentono di estrarre conoscenza a partire dai dati a disposizione.

Il testo "Data Mining: Concepts and Techniques", edito da Morgan Kaufmann, fornisce una introduzione teorica del Data Mining ed include sia i concetti di base della disciplina sia alcuni approfondimenti su argomenti pi avanzati.

Gli autori del testo sono tre: Jiawei Han, professore presso il dipartimento di Computer Science dell'Universit dell'Illinois; Micheline Kamber, laureata in Informatica, specializzata in Intelligenza artificiale e con un forte interesse per la chiarezza comunicativa; Jian Pei, professore associato presso l'Universit Simon Fraser.

Come suggerisce l'esperienza accademica di due dei tre autori si tratta di un testo prettamente accademico; il target di destinazione include principalmente professori, studenti e professionisti che operano nel campo del Data Mining. Per la comprensione dei concetti richiesta una buona conoscenza di matematica, teoria della probabilit, statistica e basi di dati, discipline ricorrenti nello studio e progettazione di sistemi di Data Mining.

Il testo organizzato in tredici capitoli ognuno dei quali suddiviso in paragrafi e sottoparagreafi. Alla fine di ogni capitolo sono presenti un sommario, degli esercizi e le note bibliografiche. Nelle prime pagine del testo presente la prefazione e l'indice dei contenuti in versione dettagliata mentre alla fine presente un indice analitico e la bibliografia completa. L'inglese quello tecnico e non presenta grosse difficolt di comprensione. Le pagine del testo sono tutte in bianco e nero, la carta di buona qualit e la copertina del testo rigida. Il testo non copre solo le basi del Data Mining ma si spinge oltre presentando anche concetti di livello intermedio: per tutti coloro interessati solo ad una visione di base dei vari aspetti del Data Mining gli autori consigliano di leggere solo i capitoli 1, 2, 3, 6, 8 e 10.

Il primo capitolo introduce il data mining in maniera multidisciplinare partendo dai cenni storici che hanno portato alla necessit di tale disciplina e l'importanza delle sue applicazioni; il capitolo introduce l'intero processo di estrazione della conoscenza a partire dai dati che si compone di sette fasi e viene fornita una introduzione di ogni fase, delle tecnologie coinvolte, delle tipologie di applicazioni possibili e delle tematiche di ricerca tutt'ora attive. A partire dai capitoli successivi vengono approfondite le singole fasi del processo. Ho trovato molto interessante l'approccio multidisciplinare che consente di avere una visione ampia dela disciplina e delle applicazioni correlate.

Il secondo capitolo si occupa di descrivere i dati, il punto di partenza del processo di data mining. La trattazione include la descrizione delle tipologie di dati, le informazioni statistiche pi importanti per studiare i dati e l'introduzione di alcune tecniche di visualizzazione dei dati che non sono banali dal momento che, in alcuni casi, i dati potrebbero essere multidimensionali. Il terzo capitolo approfondisce la fase di preprocessing dei dati che a sua volta include quattro sottofasi: data cleaning, data integration, data reduction, data transformation e data discretization; per ogni sottofase vengono fornite le basi teoriche per comprenderne l'utilit. Molto utile la presenza di immagini che semplificano la comprensione di questo capitolo.

Il quarto e quinto capitolo introducono data warehouse, OLAP (Online Analytical Processing) e la tecnologia data cube. Il quarto capitolo dedicato ad introdurre i concetti di base, le architetture e le implementazioni di data warehouse e OLAP e mostra la relazione tra i data warehouse ed altri metodi di data generalization. Il quinto capitolo si sofferma sulla tecnologia Data Cube fornendo i concetti di base ed una descrizione dettagliata dei principali metodi di elaborazione di un data cube. Nonostante la complessit degli argomenti riguardantii data warehouse, la presenza di numerosi esempi aiuta a mettere a fuoco le problematiche affrontate semplificando l'apprendimento.

Il sesto e settimo capitolo presentano metodi per estrarre pattern frequenti, associazioni e correlazioni da grandi insiemi di dati. Il sesto capitolo dedicato ai concetti fondamentali tra cui il market basket analysis, l'algoritmo a priori ed altre tecnoche per misurare l'importanza di un certo pattern. Il settimo capitolo dedicato ad approfondire metodi avanzati per l'estrazione di pattern. E' interessante la scelta di presentare solo lo pseudocodice degli algoritmi presenti in questo capitolo che mette a disposizione una base per una implementazione senza spaventare il lettore con una implementazione in un linguaggio che potrebbe non conoscere.

L'ottavo ed il nono capitolo introducono la classificazione dei dati. L'ottavo capitolo introduce i concetti di base ed illustra diversi metodi di classificazione tra cui la classificazione di Bayes e la classificazione rule-based. Il nono capitolo approfondisce metodi pi avanzati per la classificazione tra cui reti Bayesiane, BackPropagation, Support Vector Machines, classificazione tramite pattern frequenti e Lazy Learners. Ho apprezzato la completezza della trattazione sulla classificazione che presenta molti algoritmi che si basano su approcci differenti tra cui Bayes, reti neurali ed algoritmi generici.

Il decimo capitolo ed undicesimo capitolo si occupano di analisi dei cluster. Il decimo capitolo introduce i concetti di base ed i metodi principali per il data clustering tra cui il metodo di partizionamento, il metodo gerarchico, il metodo basato sulla densit ed il metodo basato su grid. L'undicesimo capitolo approfondisce alcune tecniche per l'analisi dei cluster tra cui il clustering basato su modelli probabilistici, il clustering di dati con molte dimensioni ed il clustering con vincoli. Sono rimasto piacevolmente soddisfatto della moltitudine di metodi presentati e della presentazione della loro utilit in situazioni differenti.

Il dodicesimo capitolo dedicato all'individuazione degli outlier. Nei primi paragrafi viene introdotto l'argomento mentre nei successivi vengono mostrate delle tecniche per individuare gli oulier. Nonostante la complessit degli argomenti, gli autori sono stati abili a presentare gli argomenti in maniera chiara.

Nel tredicesimo ed ultimo capitolo sono illustrate le tendenze e le frontiere di ricerca della disciplina del Data Mining riguardanti i dati, le metodologie e le applicazioni. Essendo il testo molto recente tali considerazioni risultano al passo coi tempi.

In sostanza si tratta di un testo che illustra le basi teoriche del Data Mining in maniera chiara e precisa con un evidente approccio accademico.
proUn ottimo testo per addentrarsi nel mondo del Data Mining che si contraddistinque per completezza e chiarezza espositiva.
controNessuno.
Precedente: Introducing HTML5 Game Development
Successiva: Programmare in... sicurezza
Copyright Programmazione.it™ 1999-2017. Alcuni diritti riservati. Testata giornalistica iscritta col n. 569 presso il Tribunale di Milano in data 14/10/2002. Pagina generata in 0.127 secondi.