Pagine

25 giugno 2009

Wolfram Alpha e gli altri: il web semantico prossimo venturo

Trovare è sempre meglio di cercare. Ma per trovare nel mare magnum del web bisogna usare i termini giusti, in particolare se ci si avventura nel deep web, la rete profonda, quella dove neanche Google riesce a penetrare. Per quanto possa risultare difficile da credere, oltre i trilioni di pagine web indicizzate dall'algoritmo di Mountain View c'è un oceano di siti e informazioni che aspettano solo di essere catalogati e portati in superficie. L'attesa è legata non tanto a un difetto dei tradizionali motori di ricerca, quanto a una caratteristica intrinseca di internet. Per trovare i contenuti in rete si utilizzano dei web crawler, programmi-segugio che saltabeccano di collegamento in collegamento (hyperlink) in modo automatico, acquisendo una copia testuale di tutti i documenti visitati allo scopo di inserirla nell'indice di un motore di ricerca. Questi strumenti si sono rivelati inefficaci a scovare le risorse del deep web: non sono in grado di interrogare, per esempio, un database di una pagina dinamica, dato il numero infinito di termini che si potrebbero ricercare. In sostanza, riescono a sclafire solo la superficie, non vanno oltre la seconda domanda. Brightt, una società specializzata nell'indicizzazione di contenuti dinamci, valuta che gli attuali motori siano in grado di catalogare poco meno dell'1% dei contenuti presenti su internet. Ecco perché il web semantico resta una delle grandi promesse non mantenute della rete. Rendere internet un ambiente capace di fornire risposte evolute resta la sfida più difficile da raccogliere. Ma i malati di web continuano a provarci: Tim Berners-Lee insiste da anni su questo punto. Dagli ambienti che gli girano attorno nascono i nuovi software che tentano di addentrarsi nel deep web. Come ad esempio Kosmix (http://www.kosmix.com/), una start up che ha già ricevuto il sostegno di Jeff Bezos, nata per scavare laddove non c'è un collegamento ipertestuale. I crawler usati dai motori di ricerca convenzionali puntano a cercare l'ago nel pagliaio, mentre Kosmix cerca di esplorare il pagliaio. File Pdf, contenitori audio-video, banche dati ad accesso ristretto sono contenuti finora inaccessibili ai tradizionali crawler. A questo va aggiunto il fatto che il crawler è tutto sommato stupido. Non ragiona come un essere umano e non risponde alle domande formulate nel linguaggio corrente. Con gli attuali motori si inserisce una parola e il crawler scova tutte le pagine che contengono o sono collegate a quel termine. Ma le attuali tecnologie di ricerca non possono rispondere alle interrogazioni complesse, come la domanda: «Qual è il dottore migliore, vicino a casa mia, in grado di curare la tale malattia?» Per estrarre dei dati utili dal deep web, il software di ricerca deve analizzare i termini inseriti dall'utente e capire quali sono i database più utili per trovare informazioni relative a quei termini. Se per esempio un utente chiede “Rembrandt”, il software dovrebbe sapere quali banche dati contengono più informazioni sull'arte - dai cataloghi dei musei alle case d'asta – e che tipo di richieste verranno accettate da quelle banche dati. In questo spirito, una professoressa dell'università dello Utah, Juliana Freire, sta lavorando a un progetto molto ambizioso chiamato DeepPeep (http://www.deeppeep.org/), che punta a esplorare e indicizzare ogni banca dati presente sul web. Ma estrarre il contenuto da tutti questi database richiede una enorme capacità computazionale. Il modo più elementare sarebbe utilizzare per le proprie richieste tutte le parole del dizionario, ma DeepPeep ha già superato questo stadio e pone invece una serie di domande di base, con cui comincia a capire che tipo di database si trova di fronte, per poi scegliere dei termini di ricerca più mirati. Basandosi su questa analisi, il programma riesce a estrarre in media il 90% delle informazioni dalle banche dati che esplora. Il nuovo campo di ricerca aperto da questi pionieri ha già prodotto delle applicazioni interessanti. Wolfram Alpha (http://www.wolframalpha.com/), presentato all'università di Harvard a fine aprile, rappresenta un primo passo verso il web semantico. Per questo ha già sollevato un grande entusiasmo tra gli esperti: molti credono che questo nuovo motore di ricerca sarà una pietra miliare nell'evoluzione di internet e che diventerà un nuovo modello per utilizzare il computer per le ricerche in rete. Non contento di rispondere direttamente a delle domande come: “Quant'è alto il monte Everest?”, Wolfram Alpha genera una pagina molto chiara di informazioni con il soggetto richiesto, accompagnato anche da grafici e da tabelle. Ma la vera innovazione che porta questo nuovo motore di ricerca, è la capacità di trovare delle soluzioni a domande complesse in tempo reale. Stephen Wolfram, il suo inventore, è considerato una delle menti più acute e più stravaganti delle scienze matematiche. Figlio di ebrei tedeschi rifugiati in Inghilterra, enfant prodige della fisica delle particelle, laureato a 17 anni a Oxford, a 20 Wolfram aveva già ottenuto un dottorato al CalTech, ma l'anno dopo restava folgorato dall'informatica e in breve abbandonava la carriera accademica per dedicarsi ai computer. A meno di trent'anni era già miliardario, dopo aver sviluppato Mathematica, un package usato da tutti gli scienziati, gli ingegneri e i ricercatori del mondo per risolvere calcoli matematici complessi. Wolfram Alpha è stato sviluppato sulla base di Mathematica. Se gli domandate di “comparare l'altitudine dell'Everest con la lunghezza del Golden Gate Bridge”, ve lo dirà. Se volete sapere “che tempo faceva a Londra il giorno in cui il presidente Kennedy è stato assassinato”, il motore recupererà le informazioni e vi fornirà la risposta istantaneamente. Digitate “Re diesis maggiore" e vi farà ascoltare l'accordo. Se volete conoscere “la data della prossima eclisse solare su Chicago”, ve la indicherà.In occasione del lancio, Wolfram ha detto che voleva “rendere calcolabili le conoscenze che abbiamo accumulato nella nostra cività” e ha spiegato che il lancio di Wolfram Alpha non è che l'inizio del progetto. Il motore, ad accesso libero, basa le sue ricerche su internet e su delle banche dati inserite da privati e ci vorranno un migliaio di persone per tenerlo aggiornato con le ultime scoperte e informazioni. Considerando che Google e Microsoft (di cui è appena uscito Bing, un motore che ha le stesse ambizioni di Wolfram Alpha) si stanno muovendo entrambe in questa direzione, Wolfram Alpha potrebbe fare gola a molti. Wolfram ha già chiarito che non esclude la possibilità di alleanze o collaborazioni: “Vorremmo lavorare con tutte le società legate alla nostra attività. La ricerca, la narrazione, l'informazione sono complemetari a ciò che facciamo. Speriamo che ci saranno delle vere sinergie”.

Nessun commento: