Aspettando i Motori di Ricerca di Nuova Generazione

I motori di ricerca sono dei sistemi automatici (con l’aspetto di una pagina internet) che hanno il compito di fornire dei risultati per le ricerche effettuate dagli utenti internet detti “navigatori”, su determinati argomenti.

Si basano essenzialmente sul programma chiamato Web reboot, detto anche Spider o Crawler (Crawling = raccolta) del motore di ricerca, che raccoglie e memorizza i siti (url). Per raccogliere informazioni il programma utilizza i links tra i vari siti. Una volta scovata una nuova pagina viene associato un indice (lavorando automaticamente dietro le quinte dal programma) e sarà catalogato secondo quello. Il testo viene ripartito in parole delle quali vengono eliminate quelle senza troppa importanza per la pagina. L’indice può essere ulteriormente implementato per associare ulteriori parole chiave appropriate (tavola hash). Oltretutto vengono associati pesi alle parole.

I risultati delle ricerche (ranking = ordinamento) vengono ordinati per pertinenza.

I primi motori di ricerca avevano un funzionamente molto rudimentale, fornendo risultati non troppo entusiasmante. WebCrawler è stato uno dei primi motori a capire l’importanza dell’indicizzazione del web. Excite intuì per primo l’analisi statistica nella ripetizione delle parole. Nel 1994 Yahoo esordisce con un catologo del web mentre, Lycos ordina i risultati per pertinenza arrivando a catalograe 60 milioni di siti. Nel ’95 , Altavista riusciva a farsi conoscere per le richieste in linguaggio naturale ed enumerare i link di un sito. E’ ritenuto comunemente che i motori di questa prima generazione avevano dei limiti perchè elencavano i risultati (ranking) le pagine che contenevano con più frequenza il termine cercato. [è un argomento che riprenderei appena esposto qualche concetto…].

La vera evoluzione avvenne nel 1998 con Google che ha permesso la creazione dei motori di seconda generazione. Google è basato sul “pagerank” ossia prende in considerazione le pagine più popolari, quelle più cliccate. Si basa essenzialmente su HyperSearch (forse un’involuzione…), l’intuizione dell’Italiano Massimo Marchiori. Hyper Search è un algoritmo che prende in considerazione il numero di link che le pagina contiene per decidere la posizione: a maggiori numeri di link corrisponde un migliore posizionamento. Questo algoritmo, dunque, premia i siti più utili, invece del semplice pagerank che riconferma quelli più popolari. Se un tempo, la maggiore popolarità di un sito si otteneva inserendo delle ripetizioni con parole chiave, con hypersearch si ottiene elencando un numero maggiore di link.

[Questi stratagemmi, adottati da alcuni web designer (persone incaricate di progettare le pagine web)senza scrupoli, per i loro clienti, ostacolano i motori nel ricercare e premiare i siti più interessanti. Questo è un grande problema perchè la libertà di cui si parla, per la rete internet, viene compromessa dal gioco del mercato, e non è giusto in una giungla come internet che dovrebbe essere al servizio della cultura, dell’informazione e del progresso far entrare queste logiche del profitto personale. Osservo i pc e internet dalla loro nascita e quello che ho notato da semplice utilizzatore dei motori di ricerca, risultati che vanno decrescendo dalla loro genesi: ricordo migliori siti all’inizio, molto precisi nei dettagli, ed un notevole impoverimento specialmente in questo ultimo periodo.]

Per ovviare a questa consuetudine, di ovviare ai contenuti inserendo link a sproposito, i motori di ricerca sono stati dotati dei tweaks per correggere l’algoritmo.

Oggigiorno i motori che non vi si appoggiano, hanno sistemi di funzionamento sostanzialmente analoghi a google. …e utilizzano i tweaks, la cui durata sarà messa in discussione quanto prima… Ora dunque tutti i sistemi sono “abbastanza affidabili”.

Ci sono alcuni motori poi che analizzano contemporaneamente i risultati dei migliori motori di ricerca e ne ottimizzano i risultati generando unticolo invece di un albero. Sono basati su dei formalismo algebrico detti concept lattices, “reticoli concettuali”. I reticoli generano cluster molto più giustificabili e comprensibili. Uno di essi è Credo.

Ciò però non risolve il problema individuato nel 1994 da Jill Ellsworth con il termine “Invisible Web” detto anche deep web (web profondo) e in Italiano Web invisibile o nascosto.

Il “web invisibile” è quella parte della rete che, al pari della materia oscura della cosmologia, non si riesce ad esplorare; ed è contrapposto al web visibile (la parte della rete conosciuta).

Sembra quasi di trattare la cosmologia con le teoria dell’universo conosciuto e la materia oscura (detta all’origine mancante).

In effetti possiamo anche stabilire l’ugualianza web totale = web visibile + web nascosto.

Le informazioni del web invisibile sono contenute nei database ma non vengono indicizzate dai normali motori di ricerca.

Il web può essere nascosto perchè alcune pagine non sono collegate ad altre, quindi il motore di ricerca non riesce ad accedervi. Poi ci sono pagine tecnicamente accessibili ed altre inaccessibili (come le pagine con files non html, o associati a determinati formati+pagine dinamiche generate automaticamente). Poi ci sono le pagine che il motore non è autorizzato a scaricare.

Quindi da un lato si configura un web nascosto utile per la riservatezza dei dati (conti correnti, archivi universitari ecc…), che va protetto. Da un’altro lato c’è un web nascosto che impone problemi per la sicurezza pubblica (pensiamo ad esempio a potenziali archivi segreti con contenuti pedofili) da un lato e un web con contenuti di elevato interesse non riservati ed utilissimi ai navigatori.

Il “deep-web” si incrementa a tassi sempre più alti rispetto a quello visibile. Queste constatazioni rendono ancora di più auspicabile un intervento immediato per far si che emerga tutto il web nascosto e sia catalogato tra esplorabile, segreto e querelabile per la parte illegale.

Si calcola che il 99% del web rimane invisibile ai normali motori di ricerca. Pertanto per esplorarlo tutto non bastano i normali motori di ricerca Hyperlink. Affinchè una nostra ricerca possa espolrare tutto il web per intero occorre rivolgersi a dei motori di ricerca detti Web-crawler.

Allo stato attuale esistono alcuni web-crawler ma non hanno ancora una efficacia elevata.

I migliori sono: KosmiX e DeePeeP.

A parte lo sviluppo dei web-crawler che sembra abbastanza alla portata, in futuro si andrà oltre con il Semantic Web, “Web semantico” detto anche Web 3.0. Il termine era stato coniato nell’anno 2006 dall’Informatico britannico Tim Berners-Lee, (l’inventore nel 1989 del Web con i collegamenti ipertestuali http). Si tratta di un motore di ricerca in grado di capire l’esatta esigenza dell’utente e di presentare il risultato specificamente richiesto con risposte su misura, come farebbe un essere umano, che trova soluzioni, in tempo reale, a domande complesse. Nel più remoto futuro magari saranno applicati anche software di riconoscimento vocale e addirittura del pensiero. Uno di questi motori allo studio é Walfram Alpha: http://www.wolframalpha.com/

A parte il problema tecnico, la maggiore difficoltà è rappresentata dall’uomo, come in tutti i settori. L’uomo che tende ad approfittare in tutti i campi. Il problema essenziale è quello della Democrazia della rete. C’è il rischio e il sentore che la rete possa finire nelle mani del potere e che possa pilotere anche il sapere e la libertà internet. Non solo. Il rischio è anche del digital divide (il divario fra chi ha accesso alla tecnologia informatica, come computer e/o internet, e chi, per le più varie ragioni, ne è escluso in modo totale o parziale).
Dunque si, l’aspettativa per i nuovi motori è elevata, ma altrettanto elevata è la sua auspicabile democrazia.
Il digital divide si manifesta sempre in nuove forme anche come prezzo che si deve pagare per costruire, mantenere e far conoscere il proprio sito, ad esempio. Alcuni motori di ricerca elencano nei loro primissimi posti, i siti commerciali o quelli con determinati contenuti, invece di quelli meritevoli di considerazione. Questo sarà l’argomento della II Parte: Sui siti web personali.

2 risposte a “Aspettando i Motori di Ricerca di Nuova Generazione”

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *