如果我們從搜索引擎蜘蛛的角度來看一個(gè)網(wǎng)站,那么在進(jìn)行爬網(wǎng),索引和排名時(shí)會(huì)遇到什么問題? 解決這些問題的網(wǎng)站設(shè)計(jì)是搜索引擎友好的。
1.搜索引擎蜘蛛可以找到該網(wǎng)頁嗎?
為了使搜索引擎能夠找到網(wǎng)站的首頁,必須有指向該首頁的外部鏈接。 在找到主頁之后,蜘蛛程序會(huì)通過內(nèi)部鏈接來查找更深的“內(nèi)容”頁面,因此該站點(diǎn)必須具有良好的結(jié)構(gòu)和邏輯,并且可以通過可爬網(wǎng)的普通HTML鏈接訪問所有頁面。 搜索引擎蜘蛛(例如Javascript鏈接和Flash中的鏈接)通常無法跟蹤爬網(wǎng),這將導(dǎo)致包含問題。
網(wǎng)站的所有頁面離首頁的距離都不應(yīng)太遠(yuǎn),最好單擊四到五次。 要由搜索引擎建立索引,頁面必須具有最基本的權(quán)重,并且良好的網(wǎng)站鏈接結(jié)構(gòu)可以適當(dāng)?shù)貍鬟f權(quán)重,以使盡可能多的頁面達(dá)到包含閾值。
2.找到網(wǎng)頁后,我可以抓取頁面內(nèi)容嗎?
發(fā)現(xiàn)的URL必須是可爬網(wǎng)的。 具有太多參數(shù),會(huì)話ID,整個(gè)頁面是Flash,框架結(jié)構(gòu),可疑重定向,大量復(fù)制內(nèi)容等的URL可能會(huì)使搜索引擎遠(yuǎn)離。
某些文件管理員可能不想被包括在內(nèi)。 除了不鏈接到這些文件之外,使用漫游器文件或元漫游器標(biāo)簽來禁止包含這些文件更為安全。
3.抓取頁面后如何提取有用信息
在頁面的重要位置合理分配關(guān)鍵字,編寫重要標(biāo)簽,簡(jiǎn)化HTML代碼,最低兼容性等, 可以幫助搜索引擎了解頁面內(nèi)容并提取有用的信息。
僅當(dāng)搜索引擎可以成功找到所有頁面,對(duì)那些頁面進(jìn)行爬網(wǎng)并提取真正相關(guān)的內(nèi)容時(shí),該網(wǎng)站才被視為對(duì)搜索引擎友好。 關(guān)于網(wǎng)站結(jié)構(gòu)的優(yōu)化,有一句話很明確:“良好的參考,良好的結(jié)構(gòu),良好的導(dǎo)航”。
如果有任何需要,請(qǐng)致電010-57218159。 您也可以掃描下面的QR碼并添加我們的項(xiàng)目經(jīng)理微信,您將獲得更多有關(guān)此的知識(shí)。
如沒特殊注明,文章均為酷站科技原創(chuàng),轉(zhuǎn)載請(qǐng)注明來自http://siaeb.com/wangzhanyouhua/1205.html