Motori di ricerca


Il termine motore di ricera, sebbene sia di uso comune, è forviante perché fa pensare ad un immenso database che può essere interrogato, grazie alle potenzialità di internet, da qualsiasi macchina connesse alla grande rete. L'ambiguità, principalmente, deriva dal fatto che non esiste un unico database centralizzato, ma ce ne sono diversi ed in aperta concorrenza, alcuni specializzati in particolari settori, come http://www.findchip.comspecializzato nel reperire documentazione tecnica sui circuiti integrati. Questo è un grosso vantaggio per l'utente finale che può scegliere quello più congegnale o più trendy.
Si sono affermate due diverse filosofie di vita, che contribuiscono a redere inadeguato il termine motore di ricerca, infatti quelli oggi disponibili possono essere classificati in una delle due categorie: WEB Directory, WEB Spider.


Le Web Directory si presentano come dei portali, in realtà sono spesso delle sottopagine dei portali dei grossi ISP, dove sono presentate delle categorie, man mano che l'utente indica ciò che desidera, attraverso una banale selezione di un link, vengono presentate delle sottocategorie sempre più specifiche fino a raggiungere un elenco di link attinenti al materiale cercato dall'utente.

Gli Spider si presentano come una semplice gui attraverso cui interrogare il vero e proprio database, le parole inserire vengono date in pasto a potenti server sui quali girano immensi data base e nel giro di pochi secondi si ottiene un elenco di link, che potrebbero coincidere con le aspettative degli utenti, qualcuno per ciascun risultato specifica un punteggio che indica la presunta compatibilità con quanto cercato.

Il primo modello nasce dalla telematica pre-internet e sfrutta a pieno le potenzialità ipertestuali del WEB, rende partecipe l'utente, e proprio per questo riesce a fornire risultati più attinenti, solo che il prezioso lavoro di catalogazione, per essere così specifico, difficilmente può essere automatizzato del tutto. Fondamentale è la partecipazione di un operatore in carne ed ossa per decidere in quale categoria vada collocata ciascuna pagina, ciò ovviamente rallenta la catalogazione e le WEB Directory presentano una minore quantità di informazioni catalogate, e spesso forniscono dei link a pagine non più esistenti.
Il secondo modello è altamente automatizzato, la catalogazione delle pagine è operata da potenti computer il cui compito è quello di recuperare una pagina dal WEB, estrarne delle parole chiave ed inserire il link e le relative parole chiave in potenti database. Procedono come delle immense amebe che fagocitamo qualsiasi pagina che riescano a recuperare durante la scansione. Per facilitare il lavoro di estrazione delle parole chiave, non essendo ancora affidabili gli algoritmi di comprensione del testo basati sull'intelligenza artificiale, si è deciso di inserire dei speciali meta-tag html, nei quali l'autore della pagina inserisce alcune parole che compaiono nel testo e che ritiene delle buone parole chiave. Ciò ha spinto alcuni soggetti a barare per guadagnare in visibilità, aggiungendo parole chiave non attinenti, provate ad inserire "Pamela Anderson" vedrete apparire una serie di siti pornografici dove della prosperosa attrice canadese non compare neanche l'ombra. Molti spider sono stati aggiornati in modo da escludere tutte le parole chiave che non compaiono nel testo, ma è stato escogitato un trucchetto per aggirare il filtro, però questo è un grosso problema per i documenti in quelle lingue dove esiste una declinazione per le parole a seconda che siano singolari o plurali come per l'italiano, mentre in inglese trannre in qualche rara eccezione il plurale viene fatto apponendo una s in coda alla parola nella forma singolare. Un'altro trucchetto usato in passato era quello di fa comparire più di una volta la parola chiave, ma anche questo trucchetto è ben noto ed aggirato dai moderni spider, per lo meno così dichiarano, il deterrente psiologico costa meno che rimaneggiare il software.
Gli spider oltre ad essere più rapidi negli aggiornamenti, soprattutto nella rimozione di una pagine non più online, conservano spesso una copia nella loro cache locale, consentendo di recuperare informazioni anche quando l'host non è raggiungibile per motivi tecnici o perché sottoposto a sequestro giudiziario, e con la recente ridicola legge sull'editoria in vigore in Italia, spesso sono una via per aggirare i sequestri :)


Come fanno le WEB Directory e gli spider a sapere della comparsa in rete di una nuova pagina web?
Si ricorre all'ennesimo uovo di Colombo, in informatica qualsiasi comportamento che sia ricoducibile all'intelligenza in realtà è pura mistificazione nata dalla furbizia del programmatore. La soluzione furba consiste nel far segnalare dal suo autore la messa online di una nuova risorsa, mediante un apposito modulo, che tutto è tranne che standard, se si inviano i dati ad uno spider nel giro di 24/48 ore la nostra risorsa è aggiunta al database, l'aggiornamento di una WEB Directory, per quanto detto prima, è molto più lento e richiede, in genere, più di una settimana, però quando la nostra pagina viene schedata si riceve una gradita email di conferma. Per trovare il modulo, talvolta è necessario fare un triplo salto carpiato e servirebbe un motore di ricerca ad hoc, basta individuare il link con la frase tipo "segnala il tuo sito", di solito il link si trova in basso, nascosto tra quello societario e quello della politica sulla privacy presenti sulla pagina principale, che talvolta è diversa da quella che si presenta quando inseriamo nello string-gadget del nostro browser preferito l'url del motore di ricerca, come accade nel caso di Google, che presenta una grafica minimalista ed una ristretta selezione di link utili, e per questo adorato dai più. Per accere alla pagina principale è necessario seguire il link "Tutto su Google". In generale nel modulo si deve inserire l'URL della pagina da catalogare, l'elenco delle keyword e una descrizione della pagina, quest'ultima verrà aggiunta accando al link per descriverlo, quando il nostro sito sarà fornito come risultato di una ricerca. A dire il vero le ultime due informazioni dovrebbero già essere presenti nel file .html nei metatag keyword e description, però visto che ci sono ancora molte pagine sprovviste i motori di ricerca consentono di specificarli ex-novo nel modulo.
Ognuna delle due tecniche presenta dei vantaggi e sfortunatamente altri e tanti svantaggi, quindi non è possibile definire quale sia la VIA da seguire per il futuro sviluppo degli strumenti di ricerca su internet, da un po' sta prendendo piede un'altra generazione di spider, che potremmo definire meta-spider,i quali non fanno altro che dirottare le ricerche su più di un motore, ed una volta estratte le informazioni così collezionate, sono reimpaginate è presentate all'utente. Sembrerebbe che questa sia la via migliore, ma non è così, con questa tecnica è facile aumentare il rumore nel quale è difficile recuperare l'informazione a noi utile, perché il rumore non è solo costituito da quelle pagine che in realtà hanno scarsa attinenza con quanto si desidera, ma soprattutto dalla duplicazione dei medesimi link, che quasi mai sono epurati dalla lista fornita, poiché richiederebbero un lavoro extra che comporta una onere computazionale ecessivo, e di solito chi fornisce questo servizio è una giovane società che non possiede ancora un adeguata infrastruttura informatica. Prossimamente vedremo come realizzare un simile motore di ricerca per rendere più interessanti le nostre pagine web.


Francesco De Napoli