
石家莊正規(guī)石家莊建設網站同一篇文章經常會重復出現(xiàn)在不同網站及同一個網站的不同網址上,搜索引擎并不喜歡這種重復性的內容。用戶搜索時,如果在前兩頁看到的都是來自不同網站的同一篇文章,用戶體驗就太差了,雖然都是內容相關的。石家莊建設網站多少錢搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪隙重復內容,這個過程就稱為“去重”。去重的基本方法是對頁面特征關鍵詞計算指紋,也就是說從頁面主體內容中選取Z有代表性的一部分關鍵詞(經常是出現(xiàn)頻率Z高的關鍵詞),然后計算這些關鍵詞的數字指紋。

正規(guī)石家莊建設網站搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數據庫中的頁面數都在數萬億級別以上,用戶輸入搜索詞后,靠排名程序實時對這么多頁面分析相關性,計算量太大,不可能在一兩秒內返回排名結果。石家莊建設網站多少錢因此抓取來的頁面必須經過預處理,為Z后的查詢排名做好準備。和爬行抓取一樣,預處理也是在后臺提前完成的,用戶搜索時感覺不到這個過程。搜索引擎預處理首先要做的就是從HTML文件中去除標簽、程序,提取出可以用于排名處理的網頁面文字內容。

正規(guī)石家莊建設網站這里的關鍵詞選取是在分詞、去停止詞、消噪之后。實驗表明,通常選取10個特征關鍵詞就可以達到比較高的計算準確性,再選取更多詞對去重準確性提高的貢獻也就不大了。典型的指紋計算方法如MD5算法(信息摘要算法第五版)。石家莊建設網站多少錢這類指紋算法的特點是,輸入(特征關鍵詞)有任何微小的變化,都會導致計算出的指紋有很大差距。了解了搜索引擎的去重算法,網站優(yōu)化人員就應該知道簡單地“的”、“地”、“得”、調換段落順序這種所謂偽原創(chuàng),并不能逃過搜索引擎的去重算法,因為這樣的操作無法改變文章的特征關鍵詞。

搜索引擎面對的挑戰(zhàn)正規(guī)石家莊建設網站 搜索引擎系統(tǒng)是Z復雜的計算系統(tǒng)之一,當今主流搜索引擎服務商都是有財力、人力的大公司。即使有技術、人力、財力的保證,搜索引擎還是面臨很多技術挑戰(zhàn)。搜索引擎誕生后的十多年中,石家莊建設網站多少錢技術已經得到了長足的進步。我們今天看到的搜索結果質量與10年前相比已經好得太多了。不過這還只是一個開始,搜索引擎必然還會有更多創(chuàng)新,提供更多、更準確的內容??傮w來說,搜索引擎主要會面對以下幾方面的挑戰(zhàn)。

正規(guī)石家莊建設網站站長通過搜索引擎網頁提交表格提交進來的網址。蜘蛛按重要性從待訪問地址庫中提取URL,訪問并抓取頁面,然后把這個URL從待訪問地址庫中刪除,放進己訪問地址庫中。大部分主流搜索引擎都提供一個表格,讓站長提交網址。石家莊建設網站多少錢不過這些提交來的網址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的。可以說提交頁面基本上是毫無用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁面。

石家莊正規(guī)石家莊建設網站搜索引擎和目錄兩者各有優(yōu)劣。搜索引擎收錄的頁面數遠遠高于目錄能收錄的頁面數。但搜索引擎收錄的頁面質量參差不齊,對網站內容和關鍵詞提取的準確性通常也沒有目錄高。限于人力,目錄能收錄的通常只是網蛄首頁,石家莊建設網站多少錢而且規(guī)模十分有限,不過收錄的網站通常質量比較高。像雅虎、開放目錄、好123這些大型目錄,收錄標準非常高。目錄收錄網站時存儲的頁面標題、說明文字都是人工編輯的,比較準確。搜索引擎數據更新快,而目錄中收錄的很多網站內容十分陳1日,甚至網站可能已經不再存在了。