互联网周刊:搜索引擎绘制关系矩阵
by fangjun 2008年1月4日 22:362007-12-25 13:59:08 互联网周刊
以成龙大哥的知名度,几乎每一位华人都认识他的脸,其中又有相当多对娱乐新闻敏感的人知道房祖名是他和林凤娇生的儿子。但吴绮莉这个名字呢?恐怕知道的人就不多了。
按照传统的搜索模型,用户要想查找一个人,首先会在搜索框里输入名字,然后根据搜索引擎返回的结果页来甄别自己认为有价值的信息,并从中发现结 果。受用户习惯的差异性影响,这一发现的过程往往不尽相同,并且几乎无迹可寻。有人会直接根据结果页上呈现的相关网页摘要来做出判断,有人则会一页一页的 点击进去,从目标网页上寻求答案。
尽管各个著名的搜索引擎背后都有各自高深的算法机制来为用户提供尽可能精确和有价值的结果页,但实际上,要想弄清楚吴绮莉和成龙的关系,你仅仅 输入“吴绮莉”和“成龙”这两个关键词是远远不够的,对结果页上的信息梳理看似简单,过程却并不那么有趣。而且,如果我们隐去前提——你压根就没听说过吴 绮莉,仅仅以“成龙”为关键词,那么也许要在第5、6页后才会出现“吴绮莉”这个名字,你还要再多花上数分钟的时间才能知道她多年前曾是成龙的女友,并给 成龙生下一女。
当然,在上面这个例子中,其实我们事先是假定了关心成龙的人,应该会对成龙和吴绮莉的关系感兴趣这一逻辑。而在现实中,类似的逻辑关系还有很多,比如关心成龙的人,也会对他和林凤娇以及房祖名的关系、他的新电影、他最新出席的社会活动,甚至包括他的车和豪宅感兴趣。
哈佛大学的心理学教授Stanley Milgram在1967年曾经做过一次著名的“连环信”实验,本意是想描绘出一个人与社区的人际关系拓扑网,结果却总结出了后来被称为“六度分隔” (Six Degrees of Separation)的理论——你和任何一个陌生人之间所间隔的人不会超过6个,也就是说,最多通过6个人你就能够认识任何一个陌生人。这理论说起来简 单,但如何让计算机自动的构建并呈现出这样的关系路径图,却并非易事。
“Guanxi”的界面就像传统的搜索引擎一样,不同的是结果页。在文继荣为记者展示的测试版“Guanxi”搜索引擎中输入“成龙”,你可以 清楚的看到结果页分成了左右两栏。右边几乎和传统的结果页一样,但左侧的结果页中,却直接依次排出了“林凤娇”、“房祖名”、“吴绮莉”、“VISA”、 “香港旅游大使”等等词条,这些正是“Guanxi”的精华所在。
对于结果页左栏中的每一个词条而言,它既给了用户明确的信息,又可以被当作下一次搜索的关键词直接点击。文继荣介绍说,“Guanxi”能够让 用户找到他们所感兴趣的现实世界中的对象(当然不仅是人,地名和机构也是一种对象)以及他们之间关系。从网页的抓取、分类、信息抽取,再到智能分析和挖 掘,并最终根据算法排出与对象相关的词条,这一过程全部由计算机完成。
在聂再清看来,未来的搜索不仅仅只给用户提供一个结果,而是应该不断的帮助用户发现更多的与他所提供的关键词相关的东西。无论是人、地点还是机构,用户都不用再一个网页一个网页的查找有价值的信息,这种更加丰富和便捷的互联网体验无疑会大大提高用户的粘着度。
人气只是暂时的,人和人之间的关系往往也会物是人非,但人类社会中的“关系”本身确是永恒的,而且也是能创造价值的,这恐怕也是社区类网站日益 走红的原因之一。去年出版的新书《关系的艺术:微软、中国和比尔。盖茨的赢战计划》(GUANXI(The Art Of Relationships)Microsoft,China,and Bill Gates‘s Plan to Win the Road Ahead)主要就是在谈微软亚洲研究院的人和事。文继荣和聂再清的“Guanxi”这个名字起得直接,却也不乏深意。