Negli ultimi anni, i servizi di Google e Yandex sono entrati saldamente nelle nostre vite. A questo proposito, molti probabilmente si chiedono quale sia il motore di ricerca? In termini semplici, si tratta di un sistema software progettato per cercare informazioni sul World Wide Web. I suoi risultati vengono solitamente presentati sotto forma di elenco, spesso chiamati pagine dei risultati di ricerca (SERP). Le informazioni possono essere una combinazione di pagine Web, immagini e altri tipi di file. Alcuni motori di ricerca contengono anche informazioni disponibili nei database o nelle directory aperte.
A differenza delle directory web, che sono supportate solo dai propri editor, i motori di ricerca contengono anche informazioni in tempo reale, eseguendo l'algoritmo su un web finder.
I motori di ricerca stessi sono apparsi prima del World Wide Web - nel dicembre 1990. Il primo di questi servizi si chiamava Archie e cercava i comandi sul contenuto dei file FTP.
Che cos'è un motore di ricerca su Internet? Fino al settembre 1993, il World Wide Web era completamente indicizzato manualmente. C'era una lista di server web, edita da Tim Berners-Lee, che era ospitata sul server web del CERN. Via via che un numero sempre maggiore di server andava online, il servizio di cui sopra non poteva riuscire a elaborarlo quantità di informazioni.
Uno dei primi motori di ricerca basati sulla ricerca web è stato WebCrawler, che è stato rilasciato nel 1994. A differenza dei suoi predecessori, consentiva agli utenti di cercare qualsiasi parola su qualsiasi pagina web. Da allora questo algoritmo è diventato lo standard per tutti i principali motori di ricerca. Fu anche la prima decisione, ampiamente nota al pubblico. Sempre nel 1994, fu lanciato il servizio Lycos, che in seguito divenne un importante progetto commerciale.
Poco dopo, molti motori di ricerca sono apparsi e la loro popolarità è aumentata in modo significativo. Questi includono Magellan, Excite, Infoseek, Inktomi, Northern Light e AltaVista. Yahoo! era uno dei modi più popolari per trovare pagine web di interesse, ma il suo algoritmo di ricerca funzionava nella propria directory web, non nelle pagine full-text. I cercatori di informazioni potrebbero anche sfogliare il catalogo piuttosto che cercare per parola chiave.
Google ha adottato l'idea di vendere query di ricerca nel 1998, a partire da una piccola azienda, goto.com. Questo passaggio ha avuto un impatto significativo sul business SEO, che alla fine è diventato una delle attività più redditizie su Internet.
Intorno al 2000, il motore di ricerca di Google è diventato ampiamente conosciuto. L'azienda ha ottenuto risultati migliori per molte ricerche attraverso l'innovazione denominata PageRank. Questo algoritmo iterativo valuta le pagine Web in base ai loro collegamenti ad altri siti e pagine, in base alla premessa che le fonti buone o desiderate vengono spesso indicate da altri. Google ha anche supportato un'interfaccia minimalista per il suo motore di ricerca. Al contrario, molti concorrenti hanno creato un motore di ricerca nel portale web. In effetti, Google è diventato così popolare che sono apparsi motori fraudolenti, come Mystery Seeker. Oggi ci sono molte versioni regionali di questo servizio, in particolare, il motore di ricerca Google.ru, progettato per gli utenti di lingua russa.
Com'è la classifica e la consegna dei risultati? Quali sono i motori di ricerca in termini di algoritmo di azione? Ottengono informazioni attraverso la scansione del Web da un sito all'altro. Un robot o "spider" controlla il nome del file robots.txt standard, indirizzato ad esso, prima di inviare determinate informazioni per l'indicizzazione. L'attenzione si concentra su molti fattori, come titoli, contenuto della pagina, JavaScript, fogli di stile CSS (CSS), così come markup HTML standard per contenuti o metadati nei meta tag HTML.
Indicizzazione significa collegare parole e altri token definibili presenti nelle pagine Web con i loro nomi di dominio e campi basati su HTML. Le associazioni sono create in un database accessibile pubblicamente disponibile per le query di ricerca web. La richiesta dell'utente può essere in una parola. L'indice aiuta a trovare le informazioni relative alla query il più rapidamente possibile.
Alcuni di metodi di indicizzazione e la memorizzazione nella cache è un segreto commerciale, mentre la scansione su Web è un processo semplice per visitare tutti i siti su base sistematica.
Tra una visita e l'altra del robot, la versione cache della pagina (parte o tutto il contenuto necessario per visualizzarla) memorizzata nella memoria di lavoro del motore di ricerca viene rapidamente inviata all'utente richiedente. Se la visita è in ritardo, il motore di ricerca può semplicemente agire come un proxy web. In questo caso, la pagina potrebbe differire dagli indici di ricerca. L'origine memorizzata nella cache mostra la versione di cui sono state indicizzate le parole, quindi può essere utile se la pagina effettiva è stata persa.
Di solito l'utente inserisce una query di ricerca sotto forma di più parole chiave. L'indice ha già i nomi dei siti contenenti queste parole chiave e vengono visualizzati immediatamente. Il vero carico di lavoro è creare pagine Web che siano un elenco di risultati di ricerca. Ogni pagina dell'intero elenco deve essere classificata in base alle informazioni contenute negli indici.
In questo caso, l'elemento principale del risultato richiede la ricerca, la ricostruzione e la marcatura dei frammenti, che mostrano il contesto delle parole chiave abbinate. Questa è solo una parte dell'elaborazione di ciascuna pagina web nei risultati della ricerca e altre pagine (accanto ad essa) richiedono la maggior parte di questa ulteriore elaborazione.
Oltre alla semplice ricerca di parole chiave, i motori di ricerca offrono la propria GUI o gli operatori comandati dai comandi e i parametri di ricerca per perfezionare i risultati.
Forniscono i controlli necessari all'utente attraverso un ciclo di feedback, filtrando e ponderando quando si raffinano i dati desiderati, tenendo conto delle pagine iniziali dei primi risultati di ricerca. Ad esempio, dal 2007, Google.com ha consentito di filtrare l'elenco risultante per data facendo clic su "Mostra strumenti di ricerca" nella colonna più a sinistra nella pagina dei risultati originale e quindi selezionando l'intervallo di date desiderato.
La maggior parte dei motori di ricerca supporta l'utilizzo degli operatori logici AND, OR e NOT per aiutare gli utenti finali a perfezionare la query. Alcuni operatori sono destinati ai valori letterali che consentono all'utente di perfezionare ed espandere le condizioni di ricerca. Il robot cerca parole o frasi allo stesso modo dei comandi immessi. Alcuni motori di ricerca forniscono una funzione di ricerca avanzata che consente agli utenti di determinare la distanza tra le parole chiave.
Esiste anche una ricerca basata su concetti, in cui la ricerca implica l'uso di analisi statistiche su pagine contenenti parole o frasi che stai cercando. Inoltre, le richieste in linguaggio naturale consentono all'utente di inserire una domanda nella stessa forma che chiederebbe a una persona (l'esempio più tipico è ask.com).
L'utilità di un motore di ricerca dipende dalla rilevanza del set di risultati che produce. Potrebbero esserci milioni di pagine web che contengono una determinata parola o frase, ma alcune potrebbero essere più pertinenti, popolari o autorevoli di altre. La maggior parte dei motori di ricerca utilizza metodi di classificazione per garantire i migliori risultati.
Come il motore di ricerca decide quali pagine sono le migliori corrispondenze per la query e in quale ordine vengono visualizzate le fonti trovate, varia notevolmente da un robot all'altro. Questi metodi cambiano anche nel tempo con il cambiamento dell'uso di Internet e dello sviluppo di nuove tecnologie.
Esistono due tipi principali di motori di ricerca. Il primo è un sistema di parole chiave predefinite e gerarchicamente ordinate con cui le persone lo programmano in modo massivo. Il secondo è un sistema che genera un "indice invertito" analizzando i testi trovati.
La maggior parte dei motori di ricerca sono servizi commerciali supportati da entrate pubblicitarie, pertanto alcuni di essi consentono agli inserzionisti di avere una valutazione nei risultati visualizzati per una determinata tariffa. I servizi che non accettano il ranking guadagnano denaro pubblicando annunci contestuali accanto ai siti visualizzati. Oggi, la promozione nei motori di ricerca è uno dei guadagni più redditizi della rete.
Google è il motore di ricerca più popolare al mondo con una quota di mercato dell'80,52% a marzo 2017.
La valutazione completa dei servizi più comuni (con una quota di mercato superiore all'1%) è la seguente:
In Russia e in alcuni paesi dell'Asia orientale, Google non è il servizio più popolare. Tra gli utenti russi, il motore di ricerca Yandex è in popolarità (61,9%) rispetto a Google (28,3%). In Cina, Baidu è il servizio più popolare. Portale di ricerca della Corea del Sud - Naver è utilizzato per il 70% della percentuale di ricerca online nel paese. Anche Yahoo! in Giappone e Taiwan è lo strumento più popolare per trovare i dati giusti.
Altri noti motori di ricerca russi sono Mail and Rambler. Con l'inizio dello sviluppo della Runet, erano molto popolari, ma ora hanno perso molte delle loro posizioni.
Sebbene i motori di ricerca siano programmati per classificare i siti web in base alla loro popolarità e pertinenza, gli studi empirici indicano diversi criteri politici, economici e sociali per la selezione delle informazioni che forniscono. Questi pregiudizi possono essere un risultato diretto di fattori economici (ad esempio, le aziende che pubblicizzano un motore di ricerca possono anche diventare più popolari nei risultati di ricerca regolari) e processi politici (ad esempio, eliminazione dei risultati di ricerca in conformità con le leggi locali). Quindi, Google non mostrerà alcuni siti neonazisti in Francia e Germania, dove la negazione dell'Olocausto è illegale.
La crescita globale di Internet e dei media elettronici nel mondo musulmano negli ultimi dieci anni ha spinto gli aderenti islamici in Medio Oriente e nel subcontinente asiatico a cercare di creare i propri motori di ricerca e portali filtrati che consentiranno agli utenti di effettuare una ricerca sicura.
Tali servizi contengono filtri che classificano ulteriormente i siti Web come "halal" o "haram" sulla base dell'attuale interpretazione esperta della "Legge dell'Islam".
Il portale ImHalal è apparso online a settembre 2011, e Halalgoogling - a luglio 2013. Usano i filtri haraam basati su algoritmi di Google e Bing.
Altri motori di ricerca orientati alla religione sono Jewgle (versione ebraica di Google) e Christian SeekFind.org. Filtrano i siti che negano o umiliano la loro fede.