標籤:搜索引擎演算法

超鏈分析就是通過分析鏈接網站的多少來評價被鏈接的網站質量,這保證了用戶在百度搜索時,越受用戶歡迎的內容排名越靠前。百度總裁李彥宏就是超鏈分析專利的唯一持有人,目前該技術已為世界各大搜索引擎普遍採用。

1由來

1996年(丙子年)4月,Excite首期200萬股股票上市,李彥宏也在此時想到了如何解決搜索引擎作弊問題。「我想到了我在北大所學的科技論文索引,科學論文通過索引被引用次數的多寡來確定一篇論文的好壞,超鏈就是對頁面的引用,作弊網頁沒價值,不可能被很多網站主動超鏈。」「超鏈上的文字就是對所鏈接網頁的描述,通過這個描述可以計算出超鏈和頁面之間的相關度」總之,「超鏈是別人評價你,超鏈上的描述是別人怎樣評價你。」

2發展

想到這,李彥宏很興奮,他找到老闆,對他說:「我們應該做搜索引擎。」老闆聽了很高興說:「很好。」但老闆並沒真正認識到李彥宏這個發明的重要性,「或者在他的位置上,覺得沒有必要做這個」。其時,李彥宏所在的公司已被道·瓊斯收購,大家都在忙著做華爾街日報網站,李彥宏是《華爾街日報》網路版實時金融信息系統設計者。在道·瓊斯看來,「這個公司最值錢是編輯和記者,公司雖然給軟體和技術工程師比較高的工資,但軟體和技術人員並不重要。」
老闆那邊沒動靜,李彥宏這邊很著急。「拖下去,別人也可能想到。」李彥宏買了本怎樣申請專利的書,寫了兩個月,將想法寫成了專利,並遞交了專利申請。
申請遞上去之後,李彥宏覺得還是應該和老闆說一聲。老闆一聽急了。「這是你的職務發明,應該由公司來申請這個專利。」1997年2月,道·瓊斯申請了「一種超文本的相關性排序方法和系統」專利。「它的本質就是超鏈分析。」
道·瓊斯不可能提供足夠多的資源讓李彥宏做搜索引擎,李彥宏用一台伺服器做索引互聯網上的超鏈,然後用ranklink. com跑一個DEMO演示。「當時有雜誌記者採訪我,發表了第一篇講超鏈分析文章。」Rankdex在公司立了項,還給李彥宏配一個銷售,賣超鏈分析技術。

3用例

1997年夏,李彥宏工資已經漲到了年薪8萬美元,但他總是覺得沒意思。一次學術會議上,李彥宏遇到了Infoseek CTO(首席技術官) 威廉·張。李彥宏拉威廉·張看ranklink. com。微軟、雅虎的人也在場。李彥宏輸入chinatimes,排在第一位的就是中國時報的網站,再搜IBM,IBM官方網站排在第一。「當時任何一個流行的搜索引擎都做不到。」
威廉·張立即給李彥宏開了更高的工資,邀請他加入Infoseek,李彥宏欣然接受,離開華爾街來到矽谷,出任Infoseek主任工程師。

4歷史

這其實就是現實生活中類似於鏈接關係的應用。要判斷哪個頁面最具權威性,不能光看頁面自己怎麼說,還要看其他頁面怎麼評價。
李彥宏1997年就提交了一份名為「超鏈文件檢索系統和方法」的專利申請,這比GOOGLE創始人發明PR要早得多,不得不說這是非常具有前瞻性的研究工作。在這份專利中,李彥宏提出了與傳統信息檢索系統不同的基於鏈接的排名方法。
這個系統除了索引頁面之外,還建立一個鏈接詞庫,記錄鏈接錨文字的一些相關信息,如錨文字中包含哪些關鍵詞,發出鏈接的頁面索引,包含特定錨文字的鏈接總數,包含特定關鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關鍵詞原型,也包含同一個詞幹的其他衍生關鍵詞。
根據這些鏈接數據,尤其是錨文字,計算出基於鏈接的文件相關性。在用戶搜索時,將得到的基於鏈接的相關性與基於關鍵詞匹配的傳統相關性綜合使用,得到更準確的排名。
在今天看來,這種基於鏈接的相關性計算是搜索引擎的常態,每個SEO人員都知道。但是在十三四年前,這無疑是非常創新的概念。當然現在的搜索引擎演算法對鏈接的考慮,已經不僅僅是錨文字,實際上要複雜的多。
這份專利所有人是李彥宏當時所在的公司,發明人是李彥宏本人。
上一篇[中國搜索]    下一篇 [第三代搜索]

相關評論

同義詞:暫無同義詞