1. <form id="er2ty"></form>
    <rp id="er2ty"><acronym id="er2ty"><input id="er2ty"></input></acronym></rp>
    <dd id="er2ty"></dd>
    <rp id="er2ty"></rp>

    服務熱線:13675891327   400-8699-864

    搜索引擎排名規則之預處理

       在搜索引擎原理中,搜索引擎工作流程從大的方面有三點:數據采集、數據預處理、查詢服務,這里和大家分享一下數據預處理,提前說明的是,其中涉及一些專業的詞匯,看不懂的可以去百度一下。
     
      在我們所述的“數據預處理”就是主要包含四個方面:關鍵詞提取,“鏡像網頁”以及“轉載網頁”的消除,鏈接分析和網頁重要程度的計算。
     
      關鍵詞提?。?br />  1)在每一章網頁,包含了大量的和主題內容無關的內容,像版權說明等等,關鍵詞提取的任務,就是要提取出網頁源文件的內容部分所含的關鍵詞。提取的方法:一般類似與切詞,將內容切成多個詞組成的數組,再取出“在”“的”等無意義的詞組,確定最終的關鍵詞。(博主聯想:關鍵詞密度,關鍵詞加粗,定向錨文本就是更具這一原因出現,方便搜索引擎更加簡單的判斷關鍵詞)
    在后面的章節也會提到的DocView模型中會有更加詳細的講解,在關鍵詞提取之前還有網頁凈化等多個步驟,出于書籍的編輯順序考慮,在這里不詳解,感興趣的可以點擊鏈接跳轉查看:DocView模型,網頁凈化;
     
     
      鏈接分析:
      1)鏈接分析中有提到兩個概念,詞頻(TF):該關鍵詞在關鍵詞提取之后的關鍵詞集合中的出現頻率;
      2)文件頻率(DF):該關鍵詞在所有文件中的出現頻率,在所有文件中,該關鍵詞在多少文件中出現;
      3)搜索引擎可以通過HTML文本標簽,來確定關鍵詞的重要性(博主聯想:<h1>標簽的使用就是通過這個得來);指向其他文件的鏈接,來判斷(博主聯想:定向錨文本的使用)
     
      網頁重要程度的計算:
      1)搜索引擎需要將用戶索引的結果,以列表的形式,展示給客戶,并且在展示中滿足用戶的搜索需求,因此“網頁重要程度”的概念出現了。
      2)判定重要性的方法:人們通過參考文獻重要性的評估方式,其核心就是–“被引用的最多的就是最重要的”。這種方式,恰好在HTML中超文本鏈接完美體現,谷歌的PR值(引用該頁面的頁面概述和引用該頁面的頁面重要程度)就是完美展現(博主聯想:發外鏈就是該算法的完美體現)。(PageRank算法)
      3)和第二點出現的不同的地方在于,某些頁面是被大量的指向其他頁面,某些頁面被其他頁面大量引用,形成對偶的關系,于是HITS算法出現。(HITS算法)
     
           部分名詞介紹:
          “倒排文字:利用文檔(已經采集到的網頁)中所包含的關鍵詞作為索引,文檔則作為索引的著陸頁(目標文檔),常見的,就像紙質書籍中,索引就是文章關鍵詞,書籍的具體內容或者說頁面就是索引目標頁。
     
      鏡像網頁:網頁內容一模一樣的,未做任何的修改
      轉載網頁:主要內容基本相同,但是多了少量的編輯信息
     
      HITS算法:簡單介紹,在HITS算法中,存在兩種頁面Authority(權威)頁面和Hub(目錄)頁面,對于Authority頁面A,指向A頁面的Hub頁面H頁面越多,那么A頁面的質量越高,同樣的Hub頁面H指向的Authority頁面A的數量越多,質量越高,則H頁面的質量也就越高。
     
      優覺科技在最后總結一下,在搜索引擎原理這一本書,在介紹數據預處理這一塊,包含的四個方面,在陳晨來看,鏈接分析就是用來判斷網頁重要程度的,所以可以劃分為一類,合起來就是三個方面,一句話來說:重復或轉載頁面首先消除,然后提取關鍵詞,加以DF,TF,鏈接,和算法來判斷出網頁重要程度。
    ?
    快速預約上門 Reservation
    聯系我們 Contact US
    • 地址:浙江省杭州市西湖區萬塘路262號6號樓5層
    • 電話:400-8699-864
    • 手機:13675891327
    • 郵件:404011662@qq.com
    • ICP: 浙ICP備15004778號-1   公安備案號:33010302001608
    Go To Top 回頂部           

    首頁     關于我們     成功作品     新聞動態     聯系我們


    業務咨詢

    售后服務

    熱線電話

    1. <form id="er2ty"></form>
      <rp id="er2ty"><acronym id="er2ty"><input id="er2ty"></input></acronym></rp>
      <dd id="er2ty"></dd>
      <rp id="er2ty"></rp>

      日本三级在线播放线观看视频_国产成人精品手机在线观看_亚洲欧美v国产蜜芽tv_人妻熟妇乱系列