Zajímavosti o Seznamáckém fulltextu

Vydáno: 06. 12. 2007 | Autor: Alena Špinarová | 877 slov | SEOSEO

Přednášky jsou zajímavá věc, jelikož se na nich člověk může na hodně věcí zeptat :) Na jednu takovou jsem s kolegy z naší firmy zavítal – Fulltextové vyhledávání na Seznam.cz, přednášel Štěpán Škrob.

Vím, že již mnoho z vás o této přednášce psalo (jeden, druhý a třetí), avšak nějaké zajímavé postřehy se hodí napsat, neboť se ptalo více lidí, kteří se pohybují v tomto oboru:D

Celkem zábavnou věcí bylo, že Seznam fulltext neumí dobře vyhledávat nad frázemi obsahující slovesa. Jeden zmiňovaný příklad je „běží liška k táboru“. No schválně, zkuste si to vyhledat a porovnat s výsledky Google. Proč je to tak? Inu má v tom prsty lemmatizace, neboli určování základního tvaru slova. S tím mají ještě problémy, ostatně za tím bych možná viděl i hlavní vinu, proč výsledky nejsou tak přesné jako má Google. Nejednoznačnost slov se samozřejmě vylučuje pomocí určitých metod, není to zřejmě ale tak jednoduché.

On-page faktory
Bylo zmíněno jedno zajímavé číslo, a to že se 80% váhy z obsahové části stránky dává právě TITLE elementu. (podle mého to bude méně, možná myšleno v rámci nějaké podskupiny vah)

Klíčové slovo v URL má určitou nemalou váhu (v URL celé, ne jen název domény).

Určitou váhu má struktura dokumentu a její tagy (mají každý určitou prioritu), avšak není to nic příliš velkého z hlediska celkové váhy pro danou URL.

Duplicity se rozpoznávají a ukládají jako hash, avšak potom by se filtrovaly jenom 100% duplicity. Používá Seznam na rozpoznání duplicit blokové schéma? Z odpovědi to vyznělo jako že ne.

Poměr vah mezi obsahem a backlinky prý není jasně stanovený – genetický algoritmus, který se mění sám od sebe.

Off-page faktory
Při vyhledávání určitého výrazu se nad ním provádí citační analýza. To znamená, že se najdou backlinky, které obsahují (myšlen zřejmě text v anchor tagu) dané slovo. Defakto je to podobné jako u Google, tedy určitou váhu nad každým dotazem má i váha zpětných odkazů směrujících s danou frázi na daný web.

U backlinků se nerozlišuje tématická cílenost(!), avšak budou – je to v plánu.

Indexace
Pokud chcete zaindexovat změněnou URL adresu, např. měníte ze škaredých url na cool url a dáte starou na novou přesměrovat, bere se to do URL serveru jako nově nalezené URL adresy, staré v něm zůstávají (do určitého počtu, aby se zachovala informace o přesměrování).

Stále se „hází kostkou“ pro URL, na které se vyšle indexovací robot. Stane se tedy to, že přidáte novou podstránku webu a robot si skutečně náhodně určí, zdali ji zaindexuje nebo ne (to samé dělá při každém dalším vstupu). Samozřejmě je ale i více faktorů, zdali stránku vzít nebo ne. Určit, zdali se má nějaká stránka spíše zaindexovat než jiná v rámci jedné domény však lze – přes Sitemap prioritu (0.0–1.0), na toto nám tedy robot bere také ohled.

Kdy se zaindexuje nějaký obsah stránky?
Tak o tom se rozhoduje pomocí data poslední návštěvy robota, obecného ranku dané URL a frekvence návštěv. Mohl bych tam ale zařadit i pozici v seznamu URL na proindexování.

Nové stránky přibývají do fulltextu každý den, není tedy nějaká týdenní doba, kdy by se data zkopírovala apod.

Pokud máte doménu s určitou koncovkou a chcete aby byl obsah zaindexovaný Seznamem automaticky, měli byste používat zejména známé koncovky jako .com, .cz, .net, .info, ale také jsou nadefinovány TLD okolních států. Zdali se stránka však zaindexuje se rozpoznává podle jazyku, nikoliv domény samotné, je to jenom pomocné pravidlo.

Děkuji tímto Štěpánovi za velmi dobře prezentovanou přednášku.

Myslím že přesně takové přednášky na vysokých školách mají smysl, neboť jsou propleteny dotazy studentů a je vidět evidentní zájem o dané téma. Více jich!

Kam dále?

Rubriky

Aktuálně

Newsletter

Odebírejte od nás tipy, triky a novinky z oblasti internetové reklamy. Neposíláme více jak 1 email měsíčně. Odhlášení možné kdykoliv.

RSS & Facebook

Štítky