Cum functioneaza un motor de cautare in 2018?

06

aug

2018

Cum functioneaza un motor de cautare in 2018?

Pentru multi dintre noi, internetul inseamna Google. Acesta este punctul de plecare pentru descoperirea paginilor noi si este una dintre inventiile cele mai importante de la aparitia internetului. Nu exageram daca afirmam ca suntem deja dependenti de acesta pentru a invata lucruri noi, pentru shopping, distractie, dar si pentru business. Fara un motor de cautare, continutul nou ar fi inaccesibil, ramanand ascuns.

Cum functioneaza insa un motor de cautare? Acesta are trei functii importante: de scanare (pentru a descoperi continut nou), de indexare (etichetarea si stocarea informatiilor) si de afisare (continutul relevant este prezentat atunci cand un utilizator foloseste motorul de cautare). Iata cum functioneaza aceste functii in detaliu:

Scanarea (Crawling)

Culegerea datelor unui website este punctul de plecare. Acest pas presupune scanarea website-ului si colectarea detaliilor de pe fiecare pagina: titluri, imagini, cuvinte cheie, alte linkuri etc. Un bot automat, numit spider, viziteaza pagina dupa pagina cu o viteza remarcabila, folosind linkurile intalnite pentru a descoperi noi adrese pentru cautare. Viteza acestuia este foarte mare, iar daca la inceputurile Google, un spider putea citi cateva sute de pagini pe secunda, acum acest numar atinge cifra miilor, crescand pe zi ce trece.

Astfel, la fiecare vizita a unui spider, acesta colecteaza fiecare link prezent pe pagina, adaugandu-l la o lista lunga de adrese, pe care urmeaza sa le viziteze. De acolo, se duce la urmatoarea adresa din lista, colectand si de acolo linkuri, iar acest proces este repetat la nesfarsit. De asemenea, acestia viziteaza linkurile indexate din cand in cand, pentru a verifica daca au fost aduse modificari.

Acest lucru inseamna ca orice site care are un link pe o alta pagina va fi vizitat. Unele site-uri sunt vizitate mai des insa, uneori, daca ierarhia paginilor (dictata de arhitectura site-ului) este prea complexa, un spider ar putea sa renunte la a mai face cautari pe acel site.

Indexarea

Functia de indexare presupune ca datele colectate in urma unei cautari sa fie procesate si stocate intr-o baza de date. Spre exemplu, iti poti imagina o colectie de carti. Scanarea inseamna sa citesti fiecare cuvant dintr-o carte, pe cand indexarea se rezuma la a aseza cartile in ordine, intr-o biblioteca.

In fapt, asemanarea este foarte reala. Camere imense, pline de servere, in asa numitele “data centers”, sunt cele care fac ca un motor de cautare, precum Google, sa poata indexa datele.

Sursa foto: Analytics Magazine

Afisarea si Rankingul

Prima dintre functii, afisarea, presupune un proces de returnare a datelor relevante, in functie de intrebarea adresata de utilizator. In aceasta etapa intervin algoritmi diferiti, care fac diferenta dintre cele mai cunoscute motoare de cautare. Din acest motiv, rezultatele afisate difera intre Google si Bing.

In pasul urmator, intervin algoritmii de ranking, care incearca sa determine rezultatele ideale, bazandu-se pe cele cateva cuvinte introduse de utilizator. Astfel, ele compara in cateva zeci de secunda trilioane de pagini, determinand care este cea mai relevanta. Companiile prefera sa tina secrete detaliile algoritmilor de cautare folositi.

Acest lucru se datoreaza in mare parte pentru ca nu isi doresc ca orice detinator de pagina web sa triseze si sa urce in paginile cu rezultate Google pana in top, dar sa aiba o pagina cu continut irelevant. Daca in urma cu mai multi ani, aceste practici erau destul de dese, deoarece motoarele de cautare aveau algoritmi de cautare mai simpli, astazi acest lucru este mai greu de realizat.

De exemplu, intr-o perioada, Google interpreta o pagina ca fiind relevanta, dupa numarul de cuvinte cheie (keywords) pe care aceasta le continea. Astfel, au aparut foarte multe pagini care contineau aceste cuvinte cheie in exces, integrate in continut, dar fara a avea vreun sens. Dupa aceea a urmat importanta linkurilor. Google calcula cat de multe linkuri faceau legatura cu un site, interpretand numarul de conexiuni a unei pagini ca avand legatura cu popularitatea paginii, deci fiind relevante. In schimb, acest lucru a condus la spamarea cu linkuri pretutindeni pe web, utilizatorii pierzand timp navigand printre zeci de site-uri irelevante.

Astazi, secretele algoritmilor de ranking sunt adanc scufundate in mister. Cele mai bune motoare de cautare calculeaza rankingul in functie de cat de relevant este continutul, tinand cont de experienta pe care utilizatorul o intampina la fiecare cautare si imbunatatindu-si astfel constant rezultatele.

Care este pasul urmator?

Raspunsul vine sub forma intelegerii si interpretarii corecte a intrebarii pe care o adresam unui motor de cautare. Cu alte cuvinte (sic!), este vorba despre semantica, sau mai precis, Google SemanticExperiences, un nou tip de inteligenta artificiala, care promite sa descifreze orice fel de limbaj. In scurt timp, vom putea purta convorbiri cu motorul de cautare, pentru a stabili cu exactitate pagina si continutul relevant pe care dorim sa o accesam.

Pana atunci insa, va trebui sa ne obisnuim cu un algoritm de cautare din ce in ce mai destept, care va incepe sa adauge sugestii, pentru ca oricine sa poata accesa paginile cautate, beneficiind astfel de o experienta cat mai buna.