百度搜索引擎工作原理
關(guān)于百度以及其它搜索引擎的工作原理,其實(shí)大家已經(jīng)討論過(guò)很多,但隨著(zhù)科技的進(jìn)步、互聯(lián)網(wǎng)業(yè)的發(fā)展,各家搜索引擎都發(fā)生著(zhù)巨大的變化,并且這些變化都是飛快的。我們設計這個(gè)章節的目的,除了從官方的角度發(fā)出一些聲音、糾正一些之前的誤讀外,還希望通過(guò)不斷更新內容,與百度搜索引擎發(fā)展保持同步,給各位站長(cháng)帶來(lái)最新的、與百度高相關(guān)的信息。
第一節-抓取建庫
Spider抓取系統的基本框架
互聯(lián)網(wǎng)信息爆發(fā)式增長(cháng),如何有效的獲取并利用這些信息是搜索引擎工作中的首要環(huán)節。數據抓取系統作為整個(gè)搜索系統中的上游,主要負責互聯(lián)網(wǎng)信息的搜集、保存、更新環(huán)節,它像蜘蛛一樣在網(wǎng)絡(luò )間爬來(lái)爬去,因此通常會(huì )被叫做“spider”。例如我們常用的幾家通用搜索引擎蜘蛛被稱(chēng)為:Baiduspdier、Googlebot、Sogou Web Spider等。
Spider抓取系統是搜索引擎數據來(lái)源的重要保證,如果把web理解為一個(gè)有向圖,那么spider的工作過(guò)程可以認為是對這個(gè)有向圖的遍歷。從一些重要的種子 URL開(kāi)始,通過(guò)頁(yè)面上的超鏈接關(guān)系,不斷的發(fā)現新URL并抓取,盡最大可能抓取到更多的有價(jià)值網(wǎng)頁(yè)。對于類(lèi)似百度這樣的大型spider系統,因為每時(shí) 每刻都存在網(wǎng)頁(yè)被修改、刪除或出現新的超鏈接的可能,因此,還要對spider過(guò)去抓取過(guò)的頁(yè)面保持更新,維護一個(gè)URL庫和頁(yè)面庫。
下圖為spider抓取系統的基本框架圖,其中包括鏈接存儲系統、鏈接選取系統、dns解析服務(wù)系統、抓取調度系統、網(wǎng)頁(yè)分析系統、鏈接提取系統、鏈接分析系統、網(wǎng)頁(yè)存儲系統。Baiduspider即是通過(guò)這種系統的通力合作完成對互聯(lián)網(wǎng)頁(yè)面的抓取工作。
Baiduspider 主要抓取策略類(lèi)型
上圖看似簡(jiǎn)單,但其實(shí)Baiduspider在抓取過(guò)程中面對的是一個(gè)超級復雜的網(wǎng)絡(luò )環(huán)境,為了使系統可以抓取到盡可能多的有價(jià)值資源并保持系統及實(shí)際環(huán)境中頁(yè)面的一致性同時(shí)不給網(wǎng)站體驗造成壓力,會(huì )設計多種復雜的抓取策略。以下做簡(jiǎn)單介紹:
1、抓取友好性
互聯(lián)網(wǎng)資源龐大的數量級,這就要求抓取系統盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價(jià)值資源。這就造成了另一個(gè)問(wèn)題,耗費被抓網(wǎng)站的帶寬造成訪(fǎng)問(wèn)壓力,如果程度過(guò)大將直接影響被抓網(wǎng)站的正常用戶(hù)訪(fǎng)問(wèn)行為。因此,在抓取過(guò)程中就要進(jìn)行一定的抓取壓力控制,達到既不影響網(wǎng)站的正常用戶(hù)訪(fǎng)問(wèn)又能盡量多的抓取到有價(jià)值資源的目的。
通常情況下,最基本的是基于ip的壓力控制。這是因為如果基于域名,可能存在一個(gè)域名對多個(gè)ip(很多大網(wǎng)站)或多個(gè)域名對應同一個(gè)ip(小網(wǎng)站共享ip)的問(wèn)題。實(shí)際中,往往根據ip及域名的多種條件進(jìn)行壓力調配控制。同時(shí),站長(cháng)平臺也推出了壓力反饋工具,站長(cháng)可以人工調配對自己網(wǎng)站的抓取壓力,這時(shí)百度spider將優(yōu)先按照站長(cháng)的要求進(jìn)行抓取壓力控制。
對同一個(gè)站點(diǎn)的抓取速度控制一般分為兩類(lèi):其一,一段時(shí)間內的抓取頻率;其二,一段時(shí)間內的抓取流量。同一站點(diǎn)不同的時(shí)間抓取速度也會(huì )不同,例如夜深人靜月黑風(fēng)高時(shí)候抓取的可能就會(huì )快一些,也視具體站點(diǎn)類(lèi)型而定,主要思想是錯開(kāi)正常用戶(hù)訪(fǎng)問(wèn)高峰,不斷的調整。對于不同站點(diǎn),也需要不同的抓取速度。
2、常用抓取返回碼示意
簡(jiǎn)單介紹幾種百度支持的返回碼:
1)最常見(jiàn)的404代表“NOT FOUND”,認為網(wǎng)頁(yè)已經(jīng)失效,通常將在庫中刪除,同時(shí)短期內如果spider再次發(fā)現這條url也不會(huì )抓??;
2)503代表“Service Unavailable”,認為網(wǎng)頁(yè)臨時(shí)不可訪(fǎng)問(wèn),通常網(wǎng)站臨時(shí)關(guān)閉,帶寬有限等會(huì )產(chǎn)生這種情況。對于網(wǎng)頁(yè)返回503狀態(tài)碼,百度spider不會(huì )把這條url直接刪除,同時(shí)短期內將會(huì )反復訪(fǎng)問(wèn)幾次,如果網(wǎng)頁(yè)已恢復,則正常抓??;如果繼續返回503,那么這條url仍會(huì )被認為是失效鏈接,從庫中刪除。
3)403代表“Forbidden”,認為網(wǎng)頁(yè)目前禁止訪(fǎng)問(wèn)。如果是新url,spider暫時(shí)不抓取,短期內同樣會(huì )反復訪(fǎng)問(wèn)幾次;如果是已收錄url,不會(huì )直接刪除,短期內同樣反復訪(fǎng)問(wèn)幾次。如果網(wǎng)頁(yè)正常訪(fǎng)問(wèn),則正常抓??;如果仍然禁止訪(fǎng)問(wèn),那么這條url也會(huì )被認為是失效鏈接,從庫中刪除。
4)301代表是“Moved Permanently”,認為網(wǎng)頁(yè)重定向至新url。當遇到站點(diǎn)遷移、域名更換、站點(diǎn)改版的情況時(shí),我們推薦使用301返回碼,同時(shí)使用站長(cháng)平臺網(wǎng)站改版工具,以減少改版對網(wǎng)站流量造成的損失。
3、多種url重定向的識別
互聯(lián)網(wǎng)中一部分網(wǎng)頁(yè)因為各種各樣的原因存在url重定向狀態(tài),為了對這部分資源正常抓取,就要求spider對url重定向進(jìn)行識別判斷,同時(shí)防止作弊行為。重定向可分為三類(lèi):http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical標簽,在效果上可以認為也是一種間接的重定向。
4、抓取優(yōu)先級調配
由于互聯(lián)網(wǎng)資源規模的巨大以及迅速的變化,對于搜索引擎來(lái)說(shuō)全部抓取到并合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統設計一套合理的抓取優(yōu)先級調配策略。主要包括:深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、pr優(yōu)先策略、反鏈策略、社會(huì )化分享指導策略等等。每個(gè)策略各有優(yōu)劣,在實(shí)際情況中往往是多種策略結合使用以達到最優(yōu)的抓取效果。
5、重復url的過(guò)濾
spider在抓取過(guò)程中需要判斷一個(gè)頁(yè)面是否已經(jīng)抓取過(guò)了,如果還沒(méi)有抓取再進(jìn)行抓取網(wǎng)頁(yè)的行為并放在已抓取網(wǎng)址集合中。判斷是否已經(jīng)抓取其中涉及到最核心的是快速查找并對比,同時(shí)涉及到url歸一化識別,例如一個(gè)url中包含大量無(wú)效參數而實(shí)際是同一個(gè)頁(yè)面,這將視為同一個(gè)url來(lái)對待。
6、暗網(wǎng)數據的獲取
互聯(lián)網(wǎng)中存在著(zhù)大量的搜索引擎暫時(shí)無(wú)法抓取到的數據,被稱(chēng)為暗網(wǎng)數據。一方面,很多網(wǎng)站的大量數據是存在于網(wǎng)絡(luò )數據庫中,spider難以采用抓取網(wǎng)頁(yè)的方式獲得完整內容;另一方面,由于網(wǎng)絡(luò )環(huán)境、網(wǎng)站本身不符合規范、孤島等等問(wèn)題,也會(huì )造成搜索引擎無(wú)法抓取。目前來(lái)說(shuō),對于暗網(wǎng)數據的獲取主要思路仍然是通過(guò)開(kāi)放平臺采用數據提交的方式來(lái)解決,例如“百度站長(cháng)平臺”“百度開(kāi)放平臺”等等。
7、抓取反作弊
spider在抓取過(guò)程中往往會(huì )遇到所謂抓取黑洞或者面臨大量低質(zhì)量頁(yè)面的困擾,這就要求抓取系統中同樣需要設計一套完善的抓取反作弊系統。例如分析url特征、分析頁(yè)面大小及內容、分析站點(diǎn)規模對應抓取規模等等。
Baiduspider抓取過(guò)程中涉及的網(wǎng)絡(luò )協(xié)議
剛才提到百度搜索引擎會(huì )設計復雜的抓取策略,其實(shí)搜索引擎與資源提供者之間存在相互依賴(lài)的關(guān)系,其中搜索引擎需要站長(cháng)為其提供資源,否則搜索引擎就無(wú)法滿(mǎn)足用戶(hù)檢索需求;而站長(cháng)需要通過(guò)搜索引擎將自己的 內容推廣出去獲取更多的受眾。spider抓取系統直接涉及互聯(lián)網(wǎng)資源提供者的利益,為了使搜素引擎與站長(cháng)能夠達到雙贏(yíng),在抓取過(guò)程中雙方必須遵守一定的 規范,以便于雙方的數據處理及對接。這種過(guò)程中遵守的規范也就是日常中我們所說(shuō)的一些網(wǎng)絡(luò )協(xié)議。
以下簡(jiǎn)單列舉:
http協(xié)議:超文本傳輸協(xié)議,是互聯(lián)網(wǎng)上應用最為廣泛的一種網(wǎng)絡(luò )協(xié)議,客戶(hù)端和服務(wù)器端請求和應答的標準??蛻?hù)端一般情況是指終端用戶(hù),服務(wù)器端即指網(wǎng) 站。終端用戶(hù)通過(guò)瀏覽器、蜘蛛等向服務(wù)器指定端口發(fā)送http請求。發(fā)送http請求會(huì )返回對應的httpheader信息,可以看到包括是否成功、服務(wù) 器類(lèi)型、網(wǎng)頁(yè)最近更新時(shí)間等內容。
https協(xié)議:實(shí)際是加密版http,一種更加安全的數據傳輸協(xié)議。
UA屬性:UA即user-agent,是http協(xié)議中的一個(gè)屬性,代表了終端的身份,向服務(wù)器端表明我是誰(shuí)來(lái)干嘛,進(jìn)而服務(wù)器端可以根據不同的身份來(lái)做出不同的反饋結果。
robots協(xié)議:robots.txt是搜索引擎訪(fǎng)問(wèn)一個(gè)網(wǎng)站時(shí)要訪(fǎng)問(wèn)的第一個(gè)文件,用以來(lái)確定哪些是被允許抓取的哪些是被禁止抓取的。 robots.txt必須放在網(wǎng)站根目錄下,且文件名要小寫(xiě)。詳細的robots.txt寫(xiě)法可參考 http://www.robotstxt.org 。百度嚴格按照robots協(xié)議執行,另外,同樣支持網(wǎng)頁(yè)內容中添加的名為robots的meta標 簽,index、follow、nofollow等指令。
Baiduspider抓取頻次原則及調整方法
Baiduspider根據上述網(wǎng)站設置的協(xié)議對站點(diǎn)頁(yè)面進(jìn)行抓取,但是不可能做到對所有站點(diǎn)一視同仁,會(huì )綜合考慮站點(diǎn)實(shí)際情況確定一個(gè)抓取配額,每天定量抓取站點(diǎn)內容,即我們常說(shuō)的抓取頻次。那么百度搜索引擎是根據什么指標來(lái)確定對一個(gè)網(wǎng)站的抓取頻次的呢,主要指標有四個(gè):
1,網(wǎng)站更新頻率:更新快多來(lái),更新慢少來(lái),直接影響B(tài)aiduspider的來(lái)訪(fǎng)頻率
2,網(wǎng)站更新質(zhì)量:更新頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對質(zhì)量是有嚴格要求的,如果網(wǎng)站每天更新出的大量?jì)热荻急籅aiduspider判定為低質(zhì)頁(yè)面,依然沒(méi)有意義。
3,連通度:網(wǎng)站應該安全穩定、對Baiduspider保持暢通,經(jīng)常給Baiduspider吃閉門(mén)羹可不是好事情
4,站點(diǎn)評價(jià):百度搜索引擎對每個(gè)站點(diǎn)都會(huì )有一個(gè)評價(jià),且這個(gè)評價(jià)會(huì )根據站點(diǎn)情況不斷變化,是百度搜索引擎對站點(diǎn)的一個(gè)基礎打分(絕非外界所說(shuō)的百度權重),是百度內部一個(gè)非常機密的數據。站點(diǎn)評級從不獨立使用,會(huì )配合其它因子和閾值一起共同影響對網(wǎng)站的抓取和排序。
抓取頻次間接決定著(zhù)網(wǎng)站有多少頁(yè)面有可能被建庫收錄,如此重要的數值如果不符合站長(cháng)預期該如何調整呢?百度站長(cháng)平臺提供了抓取頻次工具(http://zhanzhang.baidu.com/pressure/index),并已完成多次升級。該工具除了提供抓取統計數據外,還提供“頻次調整”功能,站長(cháng)根據實(shí)際情況向百度站長(cháng)平臺提出希望Baiduspider增加來(lái)訪(fǎng)或減少來(lái)訪(fǎng)的請求,工具會(huì )根據站長(cháng)的意愿和實(shí)際情況進(jìn)行調整。
造成Baiduspider抓取異常的原因
有一些網(wǎng)頁(yè),內容優(yōu)質(zhì),用戶(hù)也可以正常訪(fǎng)問(wèn),但是Baiduspider卻無(wú)法正常訪(fǎng)問(wèn)并抓取,造成搜索結果覆蓋率缺失,對百度搜索引擎對站點(diǎn)都是一種損失,百度把這種情況叫“抓取異常”。對于大量?jì)热轃o(wú)法正常抓取的網(wǎng)站,百度搜索引擎會(huì )認為網(wǎng)站存在用戶(hù)體驗上的缺陷,并降低對網(wǎng)站的評價(jià),在抓取、索引、排序上都會(huì )受到一定程度的負面影響,最終影響到網(wǎng)站從百度獲取的流量。
下面向站長(cháng)介紹一些常見(jiàn)的抓取異常原因:
1,服務(wù)器連接異常
服務(wù)器連接異常會(huì )有兩種情況:一種是站點(diǎn)不穩定,Baiduspider嘗試連接您網(wǎng)站的服務(wù)器時(shí)出現暫時(shí)無(wú)法連接的情況;一種是Baiduspider一直無(wú)法連接上您網(wǎng)站的服務(wù)器。
造成服務(wù)器連接異常的原因通常是您的網(wǎng)站服務(wù)器過(guò)大,超負荷運轉。也有可能是您的網(wǎng)站運行不正常,請檢查網(wǎng)站的web服務(wù)器(如apache、iis)是否安裝且正常運行,并使用瀏覽器檢查主要頁(yè)面能否正常訪(fǎng)問(wèn)。您的網(wǎng)站和主機還可能阻止了Baiduspider的訪(fǎng)問(wèn),您需要檢查網(wǎng)站和主機的防火墻。
2,網(wǎng)絡(luò )運營(yíng)商異常:網(wǎng)絡(luò )運營(yíng)商分電信和聯(lián)通兩種,Baiduspider通過(guò)電信或網(wǎng)通無(wú)法訪(fǎng)問(wèn)您的網(wǎng)站。如果出現這種情況,您需要與網(wǎng)絡(luò )服務(wù)運營(yíng)商進(jìn)行聯(lián)系,或者購買(mǎi)擁有雙線(xiàn)服務(wù)的空間或者購買(mǎi)cdn服務(wù)。
3,DNS異常:當Baiduspider無(wú)法解析您網(wǎng)站的IP時(shí),會(huì )出現DNS異常??赡苁悄木W(wǎng)站IP地址錯誤,或者域名服務(wù)商把Baiduspider封禁。請使用WHOIS或者host查詢(xún)自己網(wǎng)站IP地址是否正確且可解析,如果不正確或無(wú)法解析,請與域名注冊商聯(lián)系,更新您的IP地址。
4,IP封禁:IP封禁為:限制網(wǎng)絡(luò )的出口IP地址,禁止該IP段的使用者進(jìn)行內容訪(fǎng)問(wèn),在這里特指封禁了BaiduspiderIP。當您的網(wǎng)站不希望Baiduspider訪(fǎng)問(wèn)時(shí),才需要該設置,如果您希望Baiduspider訪(fǎng)問(wèn)您的網(wǎng)站,請檢查相關(guān)設置中是否誤添加了BaiduspiderIP。也有可能是您網(wǎng)站所在的空間服務(wù)商把百度IP進(jìn)行了封禁,這時(shí)您需要聯(lián)系服務(wù)商更改設置。
5,UA封禁:UA即為用戶(hù)代理(User-Agent),服務(wù)器通過(guò)UA識別訪(fǎng)問(wèn)者的身份。當網(wǎng)站針對指定UA的訪(fǎng)問(wèn),返回異常頁(yè)面(如403,500)或跳轉到其他頁(yè)面的情況,即為UA封禁。當您的網(wǎng)站不希望Baiduspider訪(fǎng)問(wèn)時(shí),才需要該設置,如果您希望Baiduspider訪(fǎng)問(wèn)您的網(wǎng)站,useragent相關(guān)的設置中是否有Baiduspider UA,并及時(shí)修改。
6,死鏈:頁(yè)面已經(jīng)無(wú)效,無(wú)法對用戶(hù)提供任何有價(jià)值信息的頁(yè)面就是死鏈接,包括協(xié)議死鏈和內容死鏈兩種形式:
協(xié)議死鏈:頁(yè)面的TCP協(xié)議狀態(tài)/HTTP協(xié)議狀態(tài)明確表示的死鏈,常見(jiàn)的如404、403、503狀態(tài)等。
內容死鏈:服務(wù)器返回狀態(tài)是正常的,但內容已經(jīng)變更為不存在、已刪除或需要權限等與原內容無(wú)關(guān)的信息頁(yè)面。
對于死鏈,我們建議站點(diǎn)使用協(xié)議死鏈,并通過(guò)百度站長(cháng)平臺--死鏈工具向百度提交,以便百度更快地發(fā)現死鏈,減少死鏈對用戶(hù)以及搜索引擎造成的負面影響。
7,異常跳轉:將網(wǎng)絡(luò )請求重新指向其他位置即為跳轉。異常跳轉指的是以下幾種情況:
1)當前該頁(yè)面為無(wú)效頁(yè)面(內容已刪除、死鏈等),直接跳轉到前一目錄或者首頁(yè),百度建議站長(cháng)將該無(wú)效頁(yè)面的入口超鏈接刪除掉
2)跳轉到出錯或者無(wú)效頁(yè)面
注意:對于長(cháng)時(shí)間跳轉到其他域名的情況,如網(wǎng)站更換域名,百度建議使用301跳轉協(xié)議進(jìn)行設置。
8,其他異常:
1)針對百度refer的異常:網(wǎng)頁(yè)針對來(lái)自百度的refer返回不同于正常內容的行為。
2)針對百度ua的異常:網(wǎng)頁(yè)對百度UA返回不同于頁(yè)面原內容的行為。
3)JS跳轉異常:網(wǎng)頁(yè)加載了百度無(wú)法識別的JS跳轉代碼,使得用戶(hù)通過(guò)搜索結果進(jìn)入頁(yè)面后發(fā)生了跳轉的情況。
4)壓力過(guò)大引起的偶然封禁:百度會(huì )根據站點(diǎn)的規模、訪(fǎng)問(wèn)量等信息,自動(dòng)設定一個(gè)合理的抓取壓力。但是在異常情況下,如壓力控制失常時(shí),服務(wù)器會(huì )根據自身負荷進(jìn)行保護性的偶然封禁。這種情況下,請在返回碼中返回503(其含義是“Service Unavailable”),這樣Baiduspider會(huì )過(guò)段時(shí)間再來(lái)嘗試抓取這個(gè)鏈接,如果網(wǎng)站已空閑,則會(huì )被成功抓取。
新鏈接重要程度判斷
好啦,上面我們說(shuō)了影響B(tài)aiduspider正常抓取的原因,下面就要說(shuō)說(shuō)Baiduspider的一些判斷原則了。在建庫環(huán)節前,Baiduspide會(huì )對頁(yè)面進(jìn)行初步內容分析和鏈接分析,通過(guò)內容分析決定該網(wǎng)頁(yè)是否需要建索引庫,通過(guò)鏈接分析發(fā)現更多網(wǎng)頁(yè),再對更多網(wǎng)頁(yè)進(jìn)行抓取——分析——是否建庫&發(fā)現新鏈接的流程。理論上,Baiduspider會(huì )將新頁(yè)面上所有能“看到”的鏈接都抓取回來(lái),那么面對眾多新鏈接,Baiduspider根據什么判斷哪個(gè)更重要呢??jì)煞矫妫?/p>
第一,對用戶(hù)的價(jià)值:
1,內容獨特,百度搜索引擎喜歡unique的內容
2,主體突出,切不要出現網(wǎng)頁(yè)主體內容不突出而被搜索引擎誤判為空短頁(yè)面不抓取
3,內容豐富
4,廣告適當
第二,鏈接重要程度:
1,目錄層級——淺層優(yōu)先
2,鏈接在站內的受歡迎程度
百度優(yōu)先建重要庫的原則
Baiduspider抓了多少頁(yè)面并不是最重要的,重要的是有多少頁(yè)面被建索引庫,即我們常說(shuō)的“建庫”。眾所周知,搜索引擎的索引庫是分層級的,優(yōu)質(zhì)的網(wǎng)頁(yè)會(huì )被分配到重要索引庫,普通網(wǎng)頁(yè)會(huì )待在普通庫,再差一些的網(wǎng)頁(yè)會(huì )被分配到低級庫去當補充材料。目前60%的檢索需求只調用重要索引庫即可滿(mǎn)足,這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。
那么,哪些網(wǎng)頁(yè)可以進(jìn)入優(yōu)質(zhì)索引庫呢。其實(shí)總的原則就是一個(gè):對用戶(hù)的價(jià)值。包括卻不僅于:
1,有時(shí)效性且有價(jià)值的頁(yè)面:在這里,時(shí)效性和價(jià)值是并列關(guān)系,缺一不可。有些站點(diǎn)為了產(chǎn)生時(shí)效性?xún)热蓓?yè)面做了大量采集工作,產(chǎn)生了一堆無(wú)價(jià)值面頁(yè),也是百度不愿看到的.
2,內容優(yōu)質(zhì)的專(zhuān)題頁(yè)面:專(zhuān)題頁(yè)面的內容不一定完全是原創(chuàng )的,即可以很好地把各方內容整合在一起,或者增加一些新鮮的內容,比如觀(guān)點(diǎn)和評論,給用戶(hù)更豐富全面的內容。
3,高價(jià)值原創(chuàng )內容頁(yè)面:百度把原創(chuàng )定義為花費一定成本、大量經(jīng)驗積累提取后形成的文章。千萬(wàn)不要再問(wèn)我們偽原創(chuàng )是不是原創(chuàng )。
4,重要個(gè)人頁(yè)面:這里僅舉一個(gè)例子,科比在新浪微博開(kāi)戶(hù)了,需要他不經(jīng)常更新,但對于百度來(lái)說(shuō),它仍然是一個(gè)極重要的頁(yè)面。
哪些網(wǎng)頁(yè)無(wú)法建入索引庫
上述優(yōu)質(zhì)網(wǎng)頁(yè)進(jìn)了索引庫,那其實(shí)互聯(lián)網(wǎng)上大部分網(wǎng)站根本沒(méi)有被百度收錄。并非是百度沒(méi)有發(fā)現他們,而是在建庫前的篩選環(huán)節被過(guò)濾掉了。那怎樣的網(wǎng)頁(yè)在最初環(huán)節就被過(guò)濾掉了呢:
1, 重復內容的網(wǎng)頁(yè):互聯(lián)網(wǎng)上已有的內容,百度必然沒(méi)有必要再收錄。
2, 主體內容空短的網(wǎng)頁(yè)
1)有些內容使用了百度spider無(wú)法解析的技術(shù),如JS、AJAX等,雖然用戶(hù)訪(fǎng)問(wèn)能看到豐富的內容,依然會(huì )被搜索引擎拋棄
2)加載速度過(guò)慢的網(wǎng)頁(yè),也有可能被當作空短頁(yè)面處理,注意廣告加載時(shí)間算在網(wǎng)頁(yè)整體加載時(shí)間內。
3)很多主體不突出的網(wǎng)頁(yè)即使被抓取回來(lái)也會(huì )在這個(gè)環(huán)節被拋棄。
3, 部分作弊網(wǎng)頁(yè)
第二節-檢索排序
搜索引擎索引系統概述
眾所周知,搜索引擎的主要工作過(guò)程包括:抓取、存儲、頁(yè)面分析、索引、檢索等幾個(gè)主要過(guò)程。上一章我們主要介紹了部分抓取存儲環(huán)節中的內容,此章簡(jiǎn)要介紹一下索引系統。
在以?xún)|為單位的網(wǎng)頁(yè)庫中查找特定的某些關(guān)鍵詞猶如大海里面撈針,也許一定的時(shí)間內可以完成查找,但是用戶(hù)等不起,從用戶(hù)體驗角度我們必須在毫秒級別給予用戶(hù)滿(mǎn)意的結果,否則用戶(hù)只能流失。怎樣才能達到這種要求呢?
如果能知道用戶(hù)查找的關(guān)鍵詞(query切詞后)都出現在哪些頁(yè)面中,那么用戶(hù)檢索的處理過(guò)程即可以想象為包含了query中切詞后不同部分的頁(yè)面集合求交的過(guò)程,而檢索即變成了頁(yè)面名稱(chēng)之間的比較、求交。這樣,在毫秒內以?xún)|為單位的檢索成為了可能。這就是通常所說(shuō)的倒排索引及求交檢索的過(guò)程。如下為建立倒排索引的基本過(guò)程:
1,頁(yè)面分析的過(guò)程實(shí)際上是將原始頁(yè)面的不同部分進(jìn)行識別并標記,例如:title、keywords、content、link、anchor、評論、其他非重要區域等等;
2,分詞的過(guò)程實(shí)際上包括了切詞分詞同義詞轉換同義詞替換等等,以對某頁(yè)面title分詞為例,得到的將是這樣的數據:term文本、termid、詞類(lèi)、詞性等等;
3,之前的準備工作完成后,接下來(lái)即是建立倒排索引,形成{termàdoc},下圖即是索引系統中的倒排索引過(guò)程。
倒排索引是搜索引擎實(shí)現毫秒級檢索非常重要的一個(gè)環(huán)節,下面我們要重要介紹一下索引系統建立倒排索引的重要過(guò)程——入庫寫(xiě)庫。
倒排索引的重要過(guò)程——入庫寫(xiě)庫
索引系統在建立倒排索引的最后還需要有一個(gè)入庫寫(xiě)庫的過(guò)程,而為了提高效率這個(gè)過(guò)程還需要將全部term以及偏移量保存在文件頭部,并且對數據進(jìn)行壓縮,這涉及到的過(guò)于技術(shù)化在此就不多提了。在此簡(jiǎn)要給大家介紹一下索引之后的檢索系統。
檢索系統主要包含了五個(gè)部分,如下圖所示:
?。?)Query串切詞分詞即將用戶(hù)的查詢(xún)詞進(jìn)行分詞,對之后的查詢(xún)做準備,以“10號線(xiàn)地鐵故障”為例,可能的分詞如下(同義詞問(wèn)題暫時(shí)略過(guò)):
10 0x123abc
號 0x13445d
線(xiàn) 0x234d
地鐵 0x145cf
故障 0x354df
?。?)查出含每個(gè)term的文檔集合,即找出待選集合,如下:
0x123abc 1 2 3 4 7 9…..
0x13445d 2 5 8 9 10 11……
……
……
?。?)求交,上述求交,文檔2和文檔9可能是我們需要找的,整個(gè)求交過(guò)程實(shí)際上關(guān)系著(zhù)整個(gè)系統的性能,這里面包含了使用緩存等等手段進(jìn)行性能優(yōu)化;
?。?)各種過(guò)濾,舉例可能包含過(guò)濾掉死鏈、重復數據、色情、垃圾結果以及你懂的;
?。?)最終排序,將最能滿(mǎn)足用戶(hù)需求的結果排序在最前,可能包括的有用信息如:網(wǎng)站的整體評價(jià)、網(wǎng)頁(yè)質(zhì)量、內容質(zhì)量、資源質(zhì)量、匹配程度、分散度、時(shí)效性等等
影響搜索結果排序的因素
上面的內容好象有些深奧,因為涉及大量技術(shù)細節,我們只能說(shuō)到這兒了。那下面我們說(shuō)說(shuō)大家最感興趣的排序問(wèn)題吧。用戶(hù)輸入關(guān)鍵詞進(jìn)行檢索,百度搜索引擎在排序環(huán)節要做兩方面的事情,第一是把相關(guān)的網(wǎng)頁(yè)從索引庫中提取出來(lái),第二是把提取出來(lái)的網(wǎng)頁(yè)按照不同維度的得分進(jìn)行綜合排序。“不同維度”包括:
1,相關(guān)性:網(wǎng)頁(yè)內容與用戶(hù)檢索需求的匹配程度,比如網(wǎng)頁(yè)包含的用戶(hù)檢查關(guān)鍵詞的個(gè)數,以及這些關(guān)鍵詞出現的位置;外部網(wǎng)頁(yè)指向該頁(yè)面所用的錨文本等
2,權威性:用戶(hù)喜歡有一定權威性網(wǎng)站提供的內容,相應的,百度搜索引擎也更相信優(yōu)質(zhì)權威站點(diǎn)提供的內容。
3,時(shí)效性:時(shí)效性結果指的是新出現的網(wǎng)頁(yè),且網(wǎng)頁(yè)內承載了新鮮的內容。目前時(shí)效性結果在搜索引擎中日趨重要。
4,重要性:網(wǎng)頁(yè)內容與用戶(hù)檢查需求匹配的重要程度或受歡迎程度
5,豐富度:豐富度看似簡(jiǎn)單卻是一個(gè)覆蓋范圍非常廣的命題??梢岳斫鉃榫W(wǎng)頁(yè)內容豐富,可以完全滿(mǎn)足用戶(hù)需求;不僅可以滿(mǎn)足用戶(hù)單一需求,還可以滿(mǎn)足用戶(hù)的延展需求。
6,受歡迎程度:指該網(wǎng)頁(yè)是不是受歡迎。
以上便是百度搜索引擎決定搜索結果排序時(shí)考慮的六大原則,那么六大原則的側重點(diǎn)是怎樣的呢?哪個(gè)原則在實(shí)際應用時(shí)占比最大呢?其實(shí)在這里沒(méi)有一個(gè)確切的答案。在百度搜索引擎早期,這些閾值的確是相對固定的,比如“相關(guān)性”在整體排序中的重量可以占到七成。但隨著(zhù)互聯(lián)網(wǎng)的不斷發(fā)展,檢索技術(shù)的進(jìn)步,網(wǎng)頁(yè)數量的爆發(fā)式增長(cháng),相關(guān)性已經(jīng)不是難題。于是百度搜索引擎引入了機器學(xué)習機制,讓程序自動(dòng)產(chǎn)出計算公式,推進(jìn)排序策略更加合理。
低質(zhì)網(wǎng)頁(yè)狙擊策略——石榴算法
我們理解網(wǎng)站生存發(fā)展需要資金支持,從來(lái)不反對網(wǎng)站添加各種合法廣告,不要再問(wèn)我們“我們網(wǎng)站加了XX聯(lián)盟的廣告會(huì )不會(huì )被處罰”這類(lèi)問(wèn)題。有些站點(diǎn)好不容易在百度有了比較好的排位,卻在頁(yè)面上放置大量有損訪(fǎng)問(wèn)用戶(hù)體驗的廣告,已經(jīng)嚴重影響到百度搜索引擎用戶(hù)的使用感受。為此,百度質(zhì)量團隊2013年5月17日發(fā)布公告:針對低質(zhì)量網(wǎng)頁(yè)推出了石榴算法,旨在打擊含有大量妨礙用戶(hù)正常瀏覽的惡劣廣告的頁(yè)面,尤其是彈出大量低質(zhì)廣告、存在混淆頁(yè)面主體內容的垃圾廣告的頁(yè)面。
如以下網(wǎng)頁(yè)截圖,用戶(hù)要花很長(cháng)時(shí)間去尋找真正的下載地址,是百度無(wú)法接受容忍的。
百度質(zhì)量團隊希望站長(cháng)能夠多從用戶(hù)角度出發(fā),朝著(zhù)長(cháng)遠發(fā)展考慮,在不影響用戶(hù)體驗的前提下合理地放置廣告,贏(yíng)得用戶(hù)的長(cháng)期青睞才是一個(gè)網(wǎng)站發(fā)展壯大的基礎。
第三節-外部投票
外鏈的作用(2014版)
曾經(jīng),“內容為王超鏈為皇”的說(shuō)法流行了很多年,通過(guò)超鏈計算得分來(lái)體現網(wǎng)頁(yè)的相關(guān)性和重要性,的確曾經(jīng)是搜索引擎用來(lái)評估網(wǎng)頁(yè)的重要參考因素之一,會(huì )直接參與搜索結果排序計算。但隨著(zhù)該技術(shù)被越來(lái)越多的SEO人員了解,超鏈已經(jīng)逐漸失去作為投票的重要意義,無(wú)論是谷歌還是百度,對超鏈數據的依賴(lài)程度都越來(lái)越低。那么,在現在,超鏈在發(fā)揮著(zhù)怎樣的作用?
1, 吸引蜘蛛抓?。弘m然百度在挖掘新好站點(diǎn)方面下了很大工夫,開(kāi)放了多個(gè)數據提交入口,開(kāi)避了社會(huì )化發(fā)現渠道,但超鏈依然是發(fā)現收錄鏈接的最重要入口。
2, 向搜索引擎傳遞相關(guān)性信息:百度除了通過(guò)TITLE、頁(yè)面關(guān)鍵詞、H標簽等對網(wǎng)頁(yè)內容進(jìn)行判斷外,還會(huì )通過(guò)錨文本進(jìn)行鋪助判斷。使用圖片作為點(diǎn)擊入口的超鏈,也可以通過(guò)alt屬性和title標簽向百度傳情達意。
3, 提升排名:百度搜索引擎雖然降低了對超鏈的依賴(lài),但對超鏈的識別力度從未下降,制定出更加嚴格的優(yōu)質(zhì)鏈接、正常鏈接、垃圾鏈接和作弊鏈接標準。對于作弊鏈接,除了對鏈接進(jìn)行過(guò)濾清理外,也對鏈接的受益站進(jìn)行一定程度的懲罰。相應的,對優(yōu)質(zhì)鏈接,百度依然持歡迎的態(tài)度。
4, 內容分享,獲取口碑:優(yōu)質(zhì)內容被廣泛傳播,網(wǎng)站借此獲得的流量可能并不多,但如果內容做得足夠,也可以樹(shù)立自己的品牌效應。
*嚴格來(lái)講,這并不屬于超鏈的作用。在百度眼里,網(wǎng)站的品牌比超鏈要重要得多。
切斷買(mǎi)賣(mài)超鏈的利刃——綠蘿算法1.0&2.0
百度質(zhì)量團隊2013年2月19日發(fā)布公告推出綠蘿算法,針對買(mǎi)賣(mài)鏈接行為再次強調:買(mǎi)賣(mài)鏈接行為一方面影響用戶(hù)體驗,干擾搜索引擎算法;另一方面讓投機建站者得利、超鏈中介者得利,真正勤勤懇懇做好站的站長(cháng)在這種惡劣的互聯(lián)網(wǎng)超鏈環(huán)境中無(wú)法獲得應有的回報。因此針對買(mǎi)賣(mài)鏈接行為在清除外鏈計算的基礎上,以下三個(gè)類(lèi)型的網(wǎng)站將會(huì )受到不同程度的影響:
1、超鏈中介:超鏈本應是互聯(lián)網(wǎng)上相對優(yōu)質(zhì)的推薦,是普通用戶(hù)及網(wǎng)站之間對頁(yè)面內容、網(wǎng)站價(jià)值的肯定,但是現在種種超鏈作弊行為使得真實(shí)的肯定變成了一些人謀取利益的墊腳石,用戶(hù)無(wú)法根據鏈接的推薦找到需要的優(yōu)質(zhì)資源,并且嚴重干擾搜索引擎對網(wǎng)站的評價(jià)。超鏈中介便是這畸形的超鏈市場(chǎng)下形成的惡之花,我們有義務(wù)維護超鏈的純凈維護用戶(hù)利益,也有責任引導站長(cháng)朋友們不再支出無(wú)謂的花銷(xiāo),所以超鏈中介將在我們的目標范圍內。
2、出賣(mài)鏈接的網(wǎng)站:一個(gè)站點(diǎn)有許多種盈利方式,利用優(yōu)質(zhì)的原創(chuàng )內容吸引固定用戶(hù),引進(jìn)優(yōu)質(zhì)廣告資源,甚至舉辦線(xiàn)下活動(dòng),這些盈利方式都是我們樂(lè )于見(jiàn)到的,是一個(gè)網(wǎng)站的真正價(jià)值所在。但是一些網(wǎng)站內容基本采集自網(wǎng)絡(luò ),以出賣(mài)超鏈位置為生;一些機構類(lèi)網(wǎng)站或被鏈接中介所租用進(jìn)行鏈接位置出售,使得超鏈市場(chǎng)泡沫越吹越多。此次的調整對這類(lèi)站點(diǎn)同樣將有所影響。
3、購買(mǎi)鏈接的網(wǎng)站:一直以來(lái),百度對優(yōu)質(zhì)站點(diǎn)都會(huì )加以保護和扶植,這是從用戶(hù)需求以及創(chuàng )業(yè)站長(cháng)的角度出發(fā)的必然結果。而部分站長(cháng)不將精力用在提升網(wǎng)站質(zhì)量上,而選擇鉆營(yíng)取巧,以金錢(qián)換取超鏈,欺騙搜索引擎進(jìn)而欺騙用戶(hù)。對于沒(méi)有太多資源和金錢(qián)用于此類(lèi)開(kāi)銷(xiāo)的創(chuàng )業(yè)站長(cháng)來(lái)說(shuō),也是一種無(wú)形的傷害,如果不進(jìn)行遏制,劣幣驅逐良幣,勢必導致互聯(lián)網(wǎng)環(huán)境愈加惡劣。此次調整這類(lèi)站點(diǎn)本身也將受到影響。
以上即百度質(zhì)量團隊首次推出綠蘿算法時(shí)的具體情況,后來(lái)被稱(chēng)為綠蘿算法1.0。事隔5個(gè)月之后,百度質(zhì)量團隊再次推出綠蘿算法2.0,針對明顯的推廣性軟文進(jìn)行更大范圍更加嚴格的處理。
懲罰的對象重點(diǎn)是發(fā)布軟文的新聞?wù)军c(diǎn),同時(shí)包括軟文交易平臺、軟文收益站點(diǎn)。懲罰方式包括:
1、針對軟文交易平臺,將被直接屏蔽;
2、針對軟文發(fā)布站,將視不同程度而進(jìn)行處理。例如一個(gè)新聞網(wǎng)站,存在發(fā)布軟文的現象但情節不嚴重,該網(wǎng)站在搜索系統中將被降低評價(jià);利用子域大量發(fā)布軟文的,該子域將被直接屏蔽,并且清理出百度新聞源;更有甚者創(chuàng )建大量子域用于發(fā)布軟文,此種情況整個(gè)主域將被屏蔽。
3、針對軟文受益站,一個(gè)網(wǎng)站的外鏈中存在少量的軟文外鏈,那么此時(shí)該外鏈將被過(guò)濾清除出權重計算體系,該受益站點(diǎn)將被觀(guān)察一段時(shí)間后視情況而進(jìn)一步處理;一個(gè)網(wǎng)站的外鏈中存在大量的軟文外鏈,那么此時(shí)該受益站點(diǎn)將被降低評價(jià)或直接屏蔽。
第四節-結果展現
結構化數據——助力站點(diǎn)獲得更多點(diǎn)擊
網(wǎng)頁(yè)經(jīng)歷了抓取建庫,參與了排序計算,最終展現在搜索引擎用戶(hù)面前。目前在百度搜索左側結果展現形式很多,如:鳳巢、品牌專(zhuān)區、自然結果等,一條自然結果怎樣才能獲得更多的點(diǎn)擊,是站長(cháng)要考慮的重要一環(huán)。
目前自然結果里又分為兩類(lèi),見(jiàn)下圖,第一個(gè),即結構化展現,形式比較多樣。目前覆蓋80%的搜索需求,即80%的關(guān)鍵詞下會(huì )出現這種復雜展現樣式;第二個(gè)即一段摘要式展現,最原始的展現方式,只有一個(gè)標題、兩行摘要、部分鏈接。
很明顯,結構化展現能夠向用戶(hù)明確傳遞信息,直擊用戶(hù)需求痛點(diǎn),獲得更好的點(diǎn)擊自然不在話(huà)下。目前結構化展現有幾個(gè)樣式:
1, 通用問(wèn)答:提取答案,方便搜索用戶(hù)參考,有些結構化數據還提取出了問(wèn)題
2, 下載:
3,時(shí)間戳:對于時(shí)效性較強的資訊,將時(shí)間提取出來(lái),吸引用戶(hù)點(diǎn)擊,還有回復的條目,能夠表現這個(gè)鏈接的有效性和熱度
4, 在線(xiàn)文檔:出現文檔格式示意圖
5,原創(chuàng )標記: 原創(chuàng )標記的使用是最嚴格的,只有通過(guò)人工審核的站點(diǎn)才能擁有原創(chuàng )標志,在抓取和排序上有一定優(yōu)待,所以審核非常嚴格,嚴控質(zhì)量。
6,配圖:擴大面積,方便用戶(hù)了解網(wǎng)頁(yè)內容,吸引點(diǎn)擊
那么站長(cháng)可以通過(guò)什么途徑獲得結果化展現呢:
1,參與原創(chuàng )星火計劃:百度站長(cháng)平臺VIP俱樂(lè )部提供申請入口,需要經(jīng)過(guò)人工審核后進(jìn)行數據提交
2,結構化數據提交工具:zhanzhang.baidu.com/wiki/197
3,結構化數據標注工具:zhanzhang.baidu.com/itemannotator/index
4,搜索結果配圖:具體要求為,在文章主體位置;圖片與內容相關(guān);圖片上沒(méi)有文字;圖片比例接近121*91
相關(guān)文章:
-
絕對地址:網(wǎng)絡(luò )中的絕對地址是指帶有網(wǎng)站域名的網(wǎng)頁(yè)地址。含有絕對地址的網(wǎng)頁(yè)能夠被搜索引擎更好的收錄。 相對地址:只包含本地路徑的網(wǎng)頁(yè)地址,地址通常以/和/表示層級關(guān)系。 在網(wǎng)頁(yè)...
-
網(wǎng)站訪(fǎng)問(wèn)的原理采用的是BS框架,即 browser server。通過(guò)Http協(xié)議向服務(wù)器請求相關(guān)頁(yè)面數據,然后通過(guò)瀏覽器進(jìn)行解析實(shí)現。所以網(wǎng)站的一個(gè)基本需求就是一個(gè)網(wǎng)站的站點(diǎn)服務(wù)器。 目前我所認知...
-
終于把dedecms和discuz整合成功了,分享一下方法 1.安裝dedecms,大家都懂的。 2.安裝discuz x2,安裝的時(shí)候我們選擇包含ucenter 我把兩個(gè)程序安裝在同一個(gè)數據庫里,安裝成功后我們進(jìn)入dx后臺,然...
-
如何修改discuz首頁(yè)logo 兩種方法簡(jiǎn)單修改discuz 論壇首頁(yè)logo,一種是直接從網(wǎng)頁(yè)后臺修改;另外一種是從ftp后臺修改。西安網(wǎng)站建設推薦閱讀 Discuz目錄文件結構表 , 方法一:從網(wǎng)頁(yè)后臺修改...
-
在你開(kāi)始搭建一個(gè)網(wǎng)站的時(shí)候必須得準備以下幾個(gè)步湊,免得到時(shí)手忙腳亂,給網(wǎng)站帶來(lái)不好的因數: 1,域名 域名就想一個(gè)人的名字一樣,你首先得想好,必須的和你網(wǎng)站的內容相關(guān),好讓...
-
注冊好域名租用虛擬主機或者服務(wù)器,開(kāi)始建立一個(gè)網(wǎng)站。網(wǎng)站建立成功后,可能多多少少的有些問(wèn)題??赡苁莵y碼問(wèn)題,也可能是數據庫等等一些原因導致網(wǎng)站無(wú)法正常的訪(fǎng)問(wèn)。下面小編就...
-
不需要域名和空間的方法《如何在本地搭建一個(gè)網(wǎng)站》。其原理就是利用自己的電腦來(lái)作服務(wù)器,這里我私人總結了幾點(diǎn)好處: 1.不需要申請域名和空間。 2.方便修改主題模板。直接在搭建好...
-
Discuz目錄文件結構表最近在學(xué)習discuz的程序,真的感覺(jué)模板有點(diǎn)復雜(相比織夢(mèng)DEDE相差甚遠)。今天本人將discuz程序目錄整理了一下,希望對剛開(kāi)始接觸discuz這個(gè)程序的伙伴們有所幫助。 |...
-
一個(gè)用戶(hù)的網(wǎng)站被掛馬 很多以prn.開(kāi)頭的文件...這個(gè)文件其實(shí)是windows禁止建立的..但是可以在dos建立 所以在dos下用更改屬性 結果不讓改? 然后想恢復權限 不讓恢復 ,網(wǎng)站的跟目錄被加了幾個(gè)文...
-
域名是互聯(lián)網(wǎng)的入口,域名的重要性不言而喻。一旦域名被盜,且轉移到其他注冊商,將給域名所有人帶來(lái)巨大的損失。以下小貼士是從網(wǎng)絡(luò )上搜集的經(jīng)驗匯總,希望給處于域名被盜困境中的...
- 上一篇:什么是seo
- 下一篇:學(xué)習SEO推薦文章