Le Web Directory si presentano come dei portali, in realtà sono spesso delle sottopagine dei portali dei
grossi ISP, dove sono presentate delle categorie, man mano che l'utente indica ciò
che desidera, attraverso una banale selezione di un link, vengono presentate delle
sottocategorie sempre più specifiche fino a raggiungere un elenco di link attinenti
al materiale cercato dall'utente.
Gli Spider si presentano come una semplice gui attraverso cui interrogare il vero e proprio
database, le parole inserire vengono date in pasto a potenti server sui quali
girano immensi data base e nel giro di pochi secondi si ottiene un elenco di link, che
potrebbero coincidere con le aspettative degli utenti, qualcuno per ciascun risultato
specifica un punteggio che indica la presunta compatibilità con quanto cercato.
Il primo modello nasce dalla telematica pre-internet e sfrutta a pieno le potenzialità
ipertestuali del WEB, rende partecipe l'utente, e proprio per questo riesce a fornire
risultati più attinenti, solo che il prezioso lavoro di catalogazione, per essere così
specifico, difficilmente può essere automatizzato del tutto. Fondamentale è la
partecipazione di un operatore in carne ed ossa per decidere in quale categoria
vada collocata ciascuna pagina, ciò ovviamente rallenta la catalogazione e
le WEB Directory presentano una minore quantità di informazioni catalogate, e spesso
forniscono dei link a pagine non più esistenti.
Il secondo modello è altamente automatizzato, la catalogazione delle pagine è operata
da potenti computer il cui compito è quello di recuperare una pagina dal WEB, estrarne delle
parole chiave ed inserire il link e le relative parole chiave in potenti
database. Procedono come delle immense amebe che fagocitamo qualsiasi pagina che
riescano a recuperare durante la scansione. Per facilitare il lavoro di estrazione
delle parole chiave, non essendo ancora affidabili gli algoritmi di comprensione del
testo basati sull'intelligenza artificiale, si è deciso di inserire dei speciali meta-tag
html, nei quali l'autore della pagina inserisce alcune parole che compaiono nel testo e
che ritiene delle buone parole chiave. Ciò ha spinto alcuni soggetti a barare
per guadagnare in visibilità, aggiungendo parole chiave non attinenti, provate
ad inserire "Pamela Anderson" vedrete apparire una serie di siti pornografici dove della
prosperosa attrice canadese non compare neanche l'ombra. Molti spider sono stati
aggiornati in modo da escludere tutte le parole chiave che non compaiono nel testo,
ma è stato escogitato un trucchetto per aggirare il filtro, però
questo è un grosso problema per i documenti in quelle lingue dove esiste una declinazione
per le parole a seconda che siano singolari o plurali come per l'italiano, mentre in inglese
trannre in qualche rara eccezione il plurale viene fatto apponendo una s in coda alla
parola nella forma singolare. Un'altro trucchetto usato in passato era quello di fa
comparire più di una volta la parola chiave, ma anche questo trucchetto è ben noto ed
aggirato dai moderni spider, per lo meno così dichiarano, il deterrente psiologico
costa meno che rimaneggiare il software.
Gli spider oltre ad essere più rapidi negli aggiornamenti, soprattutto nella rimozione
di una pagine non più online, conservano spesso una copia nella loro cache locale, consentendo
di recuperare informazioni anche quando l'host non è raggiungibile per motivi tecnici o
perché sottoposto a sequestro giudiziario, e con la recente ridicola legge sull'editoria
in vigore in Italia, spesso sono una via per aggirare i sequestri :)
Come fanno le WEB Directory e gli spider a sapere della comparsa in rete di una nuova
pagina web?
Si ricorre all'ennesimo uovo di Colombo, in informatica qualsiasi comportamento che
sia ricoducibile all'intelligenza in realtà è pura mistificazione nata dalla furbizia
del programmatore. La soluzione furba consiste nel far segnalare dal suo autore la
messa online di una nuova risorsa, mediante un apposito modulo, che tutto è tranne che
standard, se si inviano i dati ad uno spider nel giro di 24/48 ore la nostra risorsa è
aggiunta al database, l'aggiornamento di una WEB Directory, per quanto detto prima, è
molto più lento e richiede, in genere, più di una settimana, però quando la nostra pagina
viene schedata si riceve una gradita email di
conferma. Per trovare il modulo, talvolta è necessario fare un triplo salto carpiato e
servirebbe un motore di ricerca ad hoc, basta individuare il link con la frase
tipo "segnala il tuo sito", di solito il link si trova in basso, nascosto tra quello
societario e quello della politica sulla privacy presenti sulla pagina principale, che
talvolta è diversa da quella che si presenta quando inseriamo nello string-gadget
del nostro browser preferito l'url del motore di ricerca, come accade nel caso di Google, che presenta una grafica minimalista ed una ristretta selezione di link utili,
e per questo adorato dai più. Per accere alla pagina principale è necessario seguire
il link "Tutto su Google". In generale nel modulo si deve inserire l'URL della pagina da
catalogare, l'elenco delle keyword e una descrizione della pagina, quest'ultima verrà
aggiunta accando al link per descriverlo, quando il nostro sito sarà fornito come
risultato di una ricerca. A dire il vero le ultime due informazioni dovrebbero già
essere presenti nel file .html nei metatag keyword e description, però visto che ci sono
ancora molte pagine sprovviste i motori di ricerca consentono di specificarli ex-novo
nel modulo.
Ognuna delle due tecniche presenta dei vantaggi e sfortunatamente altri e tanti svantaggi,
quindi non è possibile definire quale sia la VIA da seguire per il futuro sviluppo degli
strumenti di ricerca su internet, da un po' sta prendendo piede un'altra generazione
di spider, che potremmo definire meta-spider,i quali non fanno altro che dirottare le
ricerche su più di un motore, ed una volta estratte le informazioni così collezionate, sono
reimpaginate è presentate all'utente. Sembrerebbe che questa sia la via migliore, ma non è
così, con questa tecnica è facile aumentare il rumore nel quale è difficile recuperare
l'informazione a noi utile, perché il rumore non è solo costituito da quelle pagine
che in realtà hanno scarsa attinenza con quanto si desidera, ma soprattutto dalla
duplicazione dei medesimi link, che quasi mai sono epurati dalla lista fornita,
poiché richiederebbero un lavoro extra che comporta una onere computazionale
ecessivo, e di solito chi fornisce questo servizio è una giovane società che non
possiede ancora un adeguata infrastruttura informatica. Prossimamente vedremo
come realizzare un simile motore di ricerca per rendere più interessanti le nostre
pagine web.