(3seee资讯快照谨为网络故障时的索引,不代表被搜索网站的即时页面。)
PageRank行将过时 搜索引擎遭遇范式转移(1)_TOM科技

PageRank行将过时 搜索引擎遭遇范式转移(1)


http://tech.tom.com  2006年09月04日 13时43分来源:TOM科技

文/王宏亮

曾被喻为创新机器的Google,连同盛极一时的古格尔教(Google宗教),正在全球范围内经历一个不可逆转的去魅过程。Google还在创新吗?面对诸多创意迭出的第三代搜索引擎的出现,PageRank 算法——Google所赖以成名的利器,似乎并没有给我们提供一个比其他搜索引擎更相关或者呈现方式更好的搜索结果。

比如说,在Google搜索框输入关键字查询,搜索结果往往会是数目多到目不暇接的一个个网页,除了提供的网页数日甚一日的多之外,你很难发现所搜索的结果和一年前有何分别。并且,呈现在你面前的这些网页几乎是没有经过任何处理的,比如自动分类、聚类、关联、个性化呈现等等。此外,当PageRank算法用于决定由大量社区内容、个人主页、blog组成的网页的相关性时,也越来越显得捉襟见肘,因为这些微内容的相关性排序很难套用PageRank算法。

第二代搜索的软肋

作为Google排名运算法则(排名公式)的核心,PageRank算法假定:某个网页被链接得越多,则该网页的等级和重要性就越大,从而在相关性排序中也就越靠前。PageRank的等级以PR值计算,PR值越高说明该网页越重要。虽然Google的排名算法实际上要远为复杂,比如还揉合了Title标识、Keywords标识等上百个参数和变量,但囿于关键词搜索本身的局限,Google并没有在搜索结果的相关性等指标上与其竞争对手拉开距离,如果不是有所不如的话。

事实上,第二代搜索引擎所具有的局限性,Google几乎无一幸免。

大体而言,第二代搜索的局限见于如下四个方面:

其一,提供的提问函数相当有限。例如,雅虎只提供与、或运算,并且一旦选用了一个逻辑运算符,即必须应用于所有的关键词;再如,百度搜索仅支持与、或、非布尔表达式,而不支持异或,也不支持关键词之间的位置检索或者勾选搜索结果;

其二,仅支持单个关键词或者一组关键词及逻辑运算符组成提问,而并不支持自然语言搜索或语义搜索。以百度为例,百度搜索支持字串搜索,当用户输入一段话进行查询时,百度会将其切分成多个词,按照逻辑“与”的关系进行关键词搜索,但搜索结果充其量仅能做到差强人意。所以如此,是因为关键词搜索本身并不是基于对内容的理解,所以关键词与搜索结果之间的匹配很难做到精准,往往是搜到哪算哪。

其三,不能利用历史信息进行搜索。用户的每次搜索都是从头开始,而不能从原有的查询结果中作进一步选择;

其四,呈现方式单一、呆板。多数搜索引擎只返回一个长长的搜索结果列表,其中可能有数以万计的包含关键词的网页,但这些网页是否以及在多大程度上与用户的搜索意图相关,则不得而知。

Google的颠覆者

在看到pagerank的局限性以后,一些新兴的搜索公司开始尝试通过提供更精准、更个性化的搜索结果,从在呈现方式上数年一贯制、几无创新的Google那里抢夺市场份额。

例如Clusty,该公司通过借鉴Autonomy的模式识别技术以及自动分类等功能,可基于对概念的理解提供搜索结果的自动分类等功能。此外,像Grokker、Snap、Dogpile这样的后起之秀,也纷纷以更个性化的搜索结果呈现方式为招徕,连连攻城掠地。

最近在美国颇受用户赞誉的另一个搜索引擎swicki,也在个性化和精准搜索方面可圈可点。虽然swicki的大部分内容来自Google,但同样针是对关键词,swicki可以根据用户注册时的使用偏好、搜索习惯,提供出不同的搜索结果。通过对搜索结果的二次评判,swicki还可以逐步校正搜索结果列表。

在国内,除了类似bbmao这样的社会化搜索引擎开始提供自动分类、聚类、用户收藏等功能而崭露头角外,老牌搜索厂商雅虎中国,也在搜索算法和呈现方式上进行了诸多改进,不仅强化了对社区内容、blog等微内容的数据抓取,而且在个性化呈现、模糊搜索等方面也有较大举措。

一个例子是,此前一个月,雅虎中国、雅虎全球、阿里巴巴三方联合推出了一个具有智能模糊匹配功能的搜索引擎——雅虎Imatch。据称,该系统可以根据用户的搜索习惯和意图,智能匹配相关的搜索结果。

呈现方式的革命

Clusty、bbmao等元搜索引擎的自动分类、聚类功能一出,即大受用户追捧,专家也认为其提供了比之Google更精准、细分的呈现方式,殊不知Clusty、bbmao等所提供的自动分类、聚类功能本身一点都不新鲜。早在10年前,英国的企业搜索巨擘Autonomy已经提供了同类乃至更智能的呈现方式。

例如,Autonomy基于某种专有的模式匹配和概念搜索的算法,可以自动根据文本中的概念进行分类,自动标引,并基于用户兴趣自动匹配出个性化、多侧面的直接或隐含的相关档案。当用户在搜索框中键入某个关键词,出现的结果可能被系统自动分为10类(或更多类),若其中9类与用户的查询期望距离较大,用户就可以将接近的那个结果作为查询条件,进行第二次查询,直到找到最需要的搜索结果。而Google、百度等第二代搜索引擎则主要使用SVM和KNN算法进行分类,因为算法的先天缺陷,分类准确率仅能达到80%到85%。并且,如果分类树有变更,如增加、修改或删除某个分类节点,整颗分类树就必须重新学习。

同样因为基于概念的理解,Autonomy还可以通过抽取文档中包含的重要概念,把相似的文档聚类到一起(相关性算法),自动生成类别的标题,并支持二维岛图、二维趋势图以及三维立体图的图形化结果展示。前不久Google趋势搜索以及百度指数的推出,在某些方面可视为对这一功能的一种模仿。

更值得一提的是,模式识别算法还可以分析信息间的主要关系,进而实现内容间的交叉索引对照和自动关联,并实时生成超链接。换句话说,该算法可以不仅可以做到精准定位用户的搜索意图,还可以提供用户可能压根想不到的搜索列表。当用户不知道用什么关键词去搜索的时候,这种对相关信息的引发就可以满足用户的一些“模糊需求”,而这是Google等第二代搜索所不具备的。

    TOM搜索更多内容Google PageRank 搜索引擎
    TOM免费邮箱,打造天下无敌
热点推荐 总裁访谈 TOM视点 显危镜 麻辣TOM
科学家发现能够促成癌细胞自动毁灭的奇特物质
太空性爱10年内或将成真 “太空宝宝”最怕辐射
自然界中有毒鱼类至少有1200种 宠物鱼也有毒性
太阳系行星数量从9颗减少到8颗 冥王星遭"降级"
视频:网友报料8.17南京UFO视频 专家称不可信
1959年航拍图拼出老北京 地图造价高市民难收藏
重庆市民意外捉到22岁罕见娃娃鱼 长1.1米(图)
知情人揭开国际狩猎秘密:在我国已开展20多年
重庆市民意捉到22岁罕见娃娃鱼 身长1.1米(图)
南非科学家称海豚脑虽大 但智商却不如金鱼(图)
TOM生日站 祝福无极限
精彩图文

宇宙惊现“四不象”星体

郑州上空天舞银蛇

“奇妙树宅”由植物构建

广西惊现“美人鱼”
相关文章 发表评论
·百度与证监委密谈国内股市上市 仍面临法律障碍 09月04日
·英国航空公司在订票网站集成Google地球软件 09月04日
·Google CEO有望入主苹果 促苹果与SUN合并 09月03日
·英国航空公司首家采用Google Earth服务 09月03日
·eBay平衡术:既定雅虎为何又要签Google? 09月03日
·法官命令Google提供用户信息 协助打击犯罪 09月02日
·巴西限定Google 15日内披露信息 否则面临重罚 09月02日
·Google图书搜索添文化艺术社广西美术社两伙伴 09月01日
·Google软件六大原则 09月01日
·更多相关文章Google PageRank 搜索引擎  
 
爱国 守法 自律 真实 文明

网友昵称 :
 
首页 | 新闻 | 体育 | 娱乐 | 音乐 | 汽车 | 幻剑 | 房产 | 科技 | 女性 | 游戏 | 短信 | 彩信 | 铃吧 | 邮箱 | 搜索 | 拍卖 | skype | 论坛 | 游戏世界
TOM首页 > TOM科技 > 互联网 > 正文

 


TOM集团  TOM在线  广告服务  私隐政策  TOM招聘  联系我们  About TOM Online
Copyright © 2006 雷霆万钧 版权所有