L'obiettivo di tutti i motori di ricerca internet è di ottenere risposte pertinenti nel minor tempo possibile; nella sua dissertazione
Finding, Extracting and Exploiting Structure in Text and Hypertext,
Ola Ågren, della
Umeå University in Svezia, descrive un nuovo approccio che produce rapidamente risultati più accurati.
I dati possono essere predisposti in una forma strutturata, come quelli di un database (il cosiddetto
Deep Web), oppure al contrario non avere pressoché nessuna organizzazione, come un file di testo; nel mezzo si trovano
dati semi-strutturati, come i documenti HTML e PDF: su questi si è concentrata l'attenzione del ricercatore.
I più comuni
search engine, come Google, generano una singola, gigantesca, graduatoria (
ranking) di tutte le pagine disponibili sulla Rete.
L'algoritmo sviluppato da Ågren, invece, ha come base una pagina di partenza pertinente alla ricerca, e include poi tutte le pagine che, direttamente o indirettamente, fanno riferimento ad essa.
Lo studio è frutto di tre progetti diversi:
AlgExt, che estrae metadati dal codice sorgente,
CHiC, che scopre strutture all'interno di vasti insiemi di metadati, e
S2ProT, versione aggiornata di ProT (
Basic Propagation of Trust), di gran lunga il più complesso, che utilizza elementi testuali e strutturali nei documenti semi-strutturati per compilare una graduatoria.
Per un determinato insieme di pagine web,
i procedimenti ordinari hanno impiegato più di sette giorni per il ranking; l'algoritmo di Ågren ci ha messo 158 secondi. Per valutare la pertinenza dei primi dieci risultati, sono stati usati tre metodi: uno sviluppato dall'autore e due varianti del
PageRank usato da Google.
È stata condotta anche una prova pratica: alcuni utenti sono stati invitati a giudicare la rilevanza dei risultati ottenuti dalle loro ricerche, senza sapere ovviamente quale searching engine stavano usando.
L'algoritmo di Ågren si è dimostrato migliore nel 60% dei casi.