mercoledì, giugno 22, 2005

Ricerca semantica

Il 2005 è iniziato con la divulgazione di una indiscrezione: "I.B.M. sta sviluppando un particolare motore di ricerca capace di rispondere alle domande degli utenti". Il nome in codice del progetto è P.I.Q.U.A.N.T. - Practical Intelligent QUestion ANswering Technology, il cui focus è quello di esplorare come meglio integrare e bilanciare varie tecnologie al fine di costruire un ambiente di Risposta a Domande che sia efficiente, modulare e multi-attivo. La ricerca semantica vuole rispondere ad una necessità primaria: migliorare i tempi di risposta di una ricerca sul web facilitando la selezione dei risultati più attinenti alle esigenze specifiche dell'utente.

Il focus del progetto PIQUANT è di esplorare come meglio integrare e bilanciare varie tecnologie al fine di costruire un ambiente di Risposta a Domande che sia efficiente, modulare e multi-attivo. L'obiettivo primario di PIQUANT è di migliorare il rendimento di risposta a domande livellando gli elementi statistici e linguistici del QA (Question Answering).

Question Answering: verso il Web semantico

Gli algoritmi di ricerca utilizzati dai Motori ci consentono di ottenere dei Risultati a partire da una query composta da una sequenza più o meno lunga di parole chiave.
La Ricerca selettiva viene effettuata elaborando la rilevanza delle parole all'interno dei contenuti testuali delle pagine in archivio, la reciproca vicinanza, l'eventuale popolarità all'interno di altre pagine etc. Gli algoritmi che elaborano simili Risultati di Ricerca hanno in comune un limite operativo: non sono in grado di rispondere a domande.
L'utente cerca informazioni sulla parola "profilazione". La domanda che verrebbe spontanea è: Cos'è la profilazione? La query viene girata a Google, che mostra un risultato di ricerca pertinente: http://www.google.it/search?hl=it&c2coff=1&q=%22cos%27%C3%A8+la+profilazione%3F%22&meta=. Casualità! Google non ha risposto alla query, ma ha cercato nel proprio archivio le pagine che contengono la frase proposta: il fatto che tra gli 8 miliardi di pagine indicizzate dal Motore ci sia una pagina contenente la frase cercata, inserita in un contesto che soddisfa la domanda proposta, rientra nel campo delle casualità.

Il Question Answering ha come obiettivo quello di agevolare il passaggio da casualità a probabilità, risolvendo in primo luogo due questioni fondamentali:

1) Il Motore di Ricerca deve essere in grado di far seguire ad una domanda (query) una probabile risposta. 2) La risposta deve essere il più possibile vicina alle esigenze di ricerca.

Query: Cos'è il calcio? http://www.google.it/search?hl=it&c2coff=1&q=%22cos%27%C3%A8+il+calcio%22&meta=
Risposta ipotetica - 1: uno sport di squadra dove si affrontano due gruppi di 11 persone...
Risposta ipotetica - 2: Il calcio è un metallo molto reattivo, il cui ossido risulta...

Un algoritmo di ricerca semantica ha lo scopo di scandagliare il web in archivio per recuperare quelle frasi che meglio rispondano alla query proposta dall'utente. Il processo è molto complesso, ed in questo senso lo Stato dell'Arte è appena agli inizi. Tornando all'esempio della query "cos'è il calcio", un algoritmo semantico dovrebbe:

1) Estrarre dalla Query le parole chiave significative (calcio).
2) Definire eventuali varianti relative alla parola: calcio (sport), calcio (metallo), sport, metallo etc.
3) Estrapolare i risultati facendo riferimento a dei modelli predefiniti di ricerca in risposta al tema della domanda "cos'è".

Google Answers - la reperibilità delle informazioni

Ci sono delle domande a cui è difficile trovare risposte adeguate in tempi brevi. L'operatore è costretto a lunghe sessioni di ricerca, scandagliando la Rete attraverso uno o più Motori di Ricerca.
PIQUANT vuole rispondere alle esigenze di chi cerca risposte altrimenti di non facile reperibilità.
Google Answers offre (a pagamento) un servizio simile alla filosofia del Piquant, basato sulla ricerca manuale: 500 esperti nella ricerca cercano di dare risposta alla query dell'utente. Tutte le ricerche effettuate (query e risposta) vengono conservate in archivio, rappresentando una risorsa a valore aggiunto sia per il modello Answers di Google, che per le sperimentazioni semantiche dell'Azienda Google. Le performance offerte da Google Answers rappresentano al meglio l'obiettivo perseguito dalle sperimentazioni sulla Ricerca semantica.

Italia: Università e Ricerca semantica

Uno dei progetti italiani più interessanti è "OPAC Semantici" [fonte: Dipartimento di Matematica - università di Pavia]: il progetto, un'iniziativa delle Università di Pavia e Venezia (Ca' Foscari) e della Associazione Italiana Biblioteche (AIB), si propone di valutare l'utilizzo dell'indicizzazione semantica (intestazioni per soggetto, tesauri, classificazioni bibliografiche) nei cataloghi in rete (OPAC) delle biblioteche italiane.

Linguaggi di concetti nel reperimento di informazioni bibliograche
Si cerca di usare la radice linguistica per una Ricerca semantica. Ovviamente la radice linguistica non sempre e sufficientemente selettiva, sia perché la radice stessa può apparire in termini ormai solo filologicamente correlati ("Francesco", Franciacorta") sia per accidentali consonanze ("francolino"). Questo provoca una zavorra nei Risultati di Ricerca, non sempre filtrabile attraverso ulteriori selezioni...

Copyright © 2005 PR & Marketing Network un articolo di Alessandro Mirri, pubblicato secondo la licenza di utilizzo di Creative Commons

Nessun commento: