Quello che di solito facciamo quando cerchiamo qualcosa è di rivolgerci a Google, che attualmente detiene il primo posto nella ricerca con una differenza sbalorditiva dell’89,43% dal secondo posto Bing. Effettivamente Google sta dominando il mercato in tutti i paesi e su qualsiasi dispositivo, dimostrando una alta affidabilità e una ottima qualità nei risultati di ricerca. Indubbiamente uno dei più famosi motori di ricerca, ma non è l’unico. Le caratteristiche di altri motori, a volte, producono risultati diversi che devono essere valutati e devono farci pensare.

Google raccoglie i dati dei vari siti web sparsi per il mondo, effettua una indicizzazione come si dice in gergo tecnico, e tramite questo enorme database produce un risultato, dando priorità ad alcuni siti piuttosto che ad altri in base ad un algoritmo.

Ogni motore possiede quasi sempre il proprio database (DuckDuckGo, ad esempio, non lo possiede ma si appoggia ad altri motori) così come un proprio algoritmo.

Fondamentalmente un motore di ricerca è un’applicazione web, ovvero un sistema client-server, dove il client è rappresentato dal browser del navigatore e il server quello che effettua la ricerca. Gli  algoritmi che vengono utilizzati dal server sono strutturati, come già detto, su un database. In questo contesto svolge un ruolo chiave il crawler o spider.

Cosa è un crawler

Un crawler è un particolare software che analizza i contenuti di una rete (o di un database), di solito su richiesta di un motore di ricerca. In pratica raccoglie tutti i documenti delle pagine web creando un indice, in modo da permetterne poi la visualizzazione. Il lavoro più complesso consiste nello stabilire l’ordine di importanza da dare ai risultati della richiesta. Quest’ ordine è quello che verrà utilizzato per mostrare le pagine trovate.

Le modalità con cui viene effettuata questa scelta sono un “segreto” degli stessi motori. Ognuno implementa un proprio algoritmo, stabilendo ciò che va mostrato per primo in base a criteri stabiliti dai programmatori.

Ecco perché, cambiando motore di ricerca, di solito cambia l’ordine di priorità con cui vengono presentate le pagine web. E’ utile, e rappresenta un completamento della ricerca, usare diversi motori. Le diverse indicizzazioni porteranno sicuramente a diverse presentazioni.

Ci sono molti crawler in circolazione. Ogni motore implementa il proprio. Alcuni sono di proprietà, altri sono open source (cioè condivisi).

Quali sono i motori di ricerca

Sul sito di Wikipedia è possibile trovare una lista dei motori in circolazione. Molti tra questi sono inattivi.

Quelli più comunemente usati sono pochi, intorno alla decina. Tra questi, oltre a Google, troviamo Bing, Yahoo, Ask, AOL, Wolfram Alpha, DuckDuckGo, Internet Archive, Qwant, Startpage e Yandex.

Quasi tutti i motori di ricerca che operano sul web sono privati. Nel tentativo di creare quelli open-source sono nati Lucene, Nutch, YaCy e OpenIndexer. Altri sono già attivi dal 2020, quali Metager, Serch Encrypt, SearX, Gibiru e , Lukol.

Ogni motore ha le proprie caratteristiche e peculiarità. Differenti crawler, produrranno differenti risultati. Per capire il motivo per cui è necessario effettuare una ricerca usando diversi motori, proverò a fare un esempio.

Supponiamo di essere i titolari di una attività a cui hanno “raccomandato” un nuovo dipendente. Non avendo altra scelta saremo invogliati ad assumerlo. Se invece di una avessimo ricevuto “enne” raccomandazioni? La scelta sarebbe diventata più oggettiva e soprattutto nostra, ovvero non forzata da imposizioni esterne.

I motori funzionano nella stessa identica maniera. I crawler sono strutturati in base alle idee, finalità esperienze dei programmatori. Differenti esigenze produrranno differenti risultati. E senza considerare il fatto che ci sono parecchie aziende che pagano per risultare nei primi posti quando si cercano determinati termini. Tutto questo porta ad una sorta di “raccomandazione” del risultato, fuorviato da molte esigenze e diverse finalità. Usando più motori si potrà godere di una migliore e più corretta scelta dell’oggetto cercato.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

Translate »