
Dobra stran (www) spleta je, da ponuja več sto milijonov spletnih strani z nešteto tem, ki si jih lahko zamislite. Slaba stran pa je, kadar pomislite na neko temo, ki bi jo želeli brati, na kateri strani jo boste našli? Si predstavljate koliko naslovov strani bi morali poznati? Na srečno nam tako narodnega početja ni treba prakticirati, saj so tu spletni iskalniki ang. (search engines).
Spletni iskalniki, so posebne strani na spletu, ki vsebujejo velik indeks strani z vsebinami, ki se nahajajo na drugih spletnih straneh. Vsi se med sabo razlikujejo, vendar vsi opravljajo 3 osnovna opravila :
- neprestano iščejo po spletu (grabijo) in obdelujejo najdene vsebine - opisujemo jih kot spletni pajki (web crawlers)
- hranijo indeks besed (npr. besede na vaši strani) in informacije o spletnem mestu, kjer so jih našli
- omogočajo uporabnikom iskanje po omenjenem indeksu z različno kombinacijo besed, ki nato skušajo vrniti rezultate, ki so relevantni
Starejši iskalniki so vsebovali indeks strani z nekaj sto tisoč strani in dokumetni in na dan bili uporabljeni za 1 ali 2 tisoč poizvedbenih nizov. Današnji imajo indekse med več sto milijoni strani in dokumenti, in so uporabljeni za več deset milijonov poizvedbenih nizov na dan.
Kako deluje iskalnik (kratek opis delovanja)
Preden vam iskalnik lahko pove, kje najdete določeno stran ali dokument, jo mora najprej poiskati. Da lahko najde informacije, ki jih želite na tolikšni količini strani, ki so na spletu, iskalnik zaposli posebno razvito robotsko programsko opremo imenovano pajki, ki zgradi seznam vsebine najdene na strani. Gradnja takšnega seznama se imenuje web crawling. Proces gradnje poteka nekako takole :
- pajki na poti po spletu obiščejo vašo stran
- sledijo vsem povezavam, ki jih imate na strani
- iz vseh vaših strani nato zgradijo seznam najdenih besed
- zgradi indeks strani - razlićno od iskalnika
- stisne pridobljene podatke, da prihrani na prostoru
Sedaj si lahko predstavljate, zakaj so tu ključne besede (ang. keywords) in čemu jim lastniki spletnih strani posvečajo toliko pozornosti. Predstavljajo namreč seznam besed (ki naj bi predstavljal vsebino), ki so pomembne na vaši strani.
Kako deluje Google
Danes najbolj uporabljen iskalnik Google, je akademsko delo dveh mož (Sergey Brin in Lawrence Page). Zgradila sta sistem, ki je za iskanje zaposlil več pajkov (3 na enkrat). Vsak pajek je imel lahko odprtih okoli 300 povezav na eno stran. S štirimi pajki je tako lahko sistem obdelal 100 strani na sekundo.
Ko je pajek obiskal spletno stran, je gledal na dve stvari. Besede ki so na strani in kje jih je našel. Besede, ki so se pojavile v naslovih, podnaslovih, meta značkah so strani dodale določeno pomembnost pri rangiranju. Danes je algoritem za rangiranje postal veliko boljo kompleksen in golo vnašanje ključnih besed v omenjene dele strani predstavljajo nekje 30% dela rangiranja.
Princip današnjega delovanja iskalnika Google je še vedno podoben, vendar je sistem za gradnjo rezultatov, ki bodo vrnjeni uporabniku (kadar vpiše iskalni niz besed), v konstantnem spreminjanju. To pomeni, da se teža določenih faktorjev rangiranja neprestano spreminja, saj na ta način skušajo zagotoviti koristne informacije za iskalca.
Filtriranje rezultatov
Kadar govorimo o filtriranju rezultatov, lahko za primer vzamemo Kitajsko. Kitajski iskalniki so znani predvsem po cenzuri vsebine, ki se tamkajšnem režimu zdi sporna ali pa ga predstavlja v slabi luči (npr. zgodovinska dejstva). Pred kratkim je Google objavil seznam držav in število zahtev po cenzuri vsebine. Med njimi se je znašla tudi Slovenija z manj kot 10 zahtevami. Bo svoboda interneta postala omejena? Več najdete (v ang. jeziku) na tej povezavi: http://www.publicknowledge.org/issues/network-neutrality


Objavi nov komentar