|
|
|
|
|
|
|
摘要:在20世纪90年代初期的时候,Tim Berners-Lee花费了近乎一年的时间,试图让人们理解和掌握他关于互联网超文本系统设计的力量和美妙,他给他的这个设想起了一个颇具诱惑性的名字:万维网(World Wide Web)。但是因为那个时候Web还不存在,所以绝大多数的人们都无法想象他所说的到底意味着什么。十年后,Berners-Lee仍然为同样的问题而奋斗,只不过这次,他试图阐释清楚他关于语义网(Semantic Web)的设想。这个网络不仅可以将各个文件彼此相连,而且可以识别这些文件中信息的意义(meaning),这是一项最普通的人都可以完成的很好的工作,但是对计算机来说却是一种苛求,因为计算机不能识别“头”到底是一个组织的领导还是一个身体的头部。
你有没有想过为互联网上杂乱而庞大的信息设计一种结构,使它们易于查找和利用呢?这就是语义学所要解决的问题。
Tim Berners-Lee一定会觉得他处在一种时间偏差之中。早在20世纪90年代初期的时候,他花费了近乎一年的时间,试图让人们理解和掌握他关于互联网超文本系统(Internet hypertext system)设计的力量和美妙之处,他给他的这个设想起了一个颇具诱惑性的名字:万维网(World Wide Web)。但是因为那个时候Web还不存在,所以绝大多数的人们都无法想象他所说的到底意味着什么。在很少的几个能够理解他的思想的人的支持下,Berners-Lee对此坚持不懈,他的发明最终成为历史上增长最快的媒体发行系统。
十年后,Berners-Lee仍然为同样的问题而奋斗,只不过这次,他试图阐释清楚他关于语义网(Semantic Web)的梦想。他的想法是建立一个新型网络(Web),这个网络不仅可以实现文件的互连,而且还可以识别这些文件中信息的意义,这个工作普通人都可以做的很好,但是对计算机来说,却是一个很苛刻的要求,因为计算机不能辨别“头”这个词说的是一个组织的领导呢,还是身体的头部。Berners-Lee是麻省理工学院(MIT)万维网协会(World Wide Web Consortium)的主任,他说,“语义网上的数据是真正的可以被机器处理的数据,这就是令人兴奋的所在。”
今天的万维网基本上是一个出版媒介,是一个存储和共享图像与文本的地方。引入语义学后将可以从根本上改变Web的性质,从一个仅仅是显示信息的地方改变为一个可以对信息进行解释、交换和处理的地方。能够进行语义分析的搜索代理可以从多种来源收集机器可读的数据,对它们进行处理并推理出新的事实。互不兼容的程序可以共享原先不相容的数据。换句话说,语义网最终的目标是使用户在互联网(Internet)上庞大的信息资源面前具有无所不知的能力,使现有的成百万的独立的数据库融合成一个巨大的数据库海洋。
为了对语义网和现在的Web进行比较,富有*的Berners-Lee做了如下说明:想象一下我们通过在线登记来参加一个会议。
在会议的网站上列有会议的时间、日期和地点,与这些信息在一起的还有距离会场最近的为参会人员提供折扣的机场和饭店的信息。利用今天的Web,你必须首先检查一下,确定你的时间表是否清楚,如果它很清楚了,你还需要把时间和日期剪切和粘贴到你自己的日程表中,接下来,你要么通过给预定台打电话,要么去他们自己的Web站点,安排好航班和饭店住宿的事情。
Berners-Lee解释说,“你无法仅仅说‘我想去参加这个会议’就可以完成这一切的准备工作,因为计算机无法识别哪些比特的语义是日期,哪些比特的信息是时间。”但是他宣称,在语义网上这些比特的信息都被标识过,你计算机上的软件可以识别这些标志符(tag),然后按一下按扭,就可以自动地预定参加这个会议的航班和酒店的房间。
语义网也是一个信息更为丰富,更为个性化的网络。试想,你只要把鼠标放在这个饭店的名字上,你就会知道对这个饭店的质量进行投票的人当中,有15%的人认为它是极好的。如果你刚好知道这个饭店非常的糟糕,你就可以指示你的Web浏览器对这些认为它极好的人的信用度赋值为零。(这些轮流检测的信息会被保存到处于第三方的“注释服务器”上,你的Web浏览器可以自动地访问这个服务器。)通过对那些与你的品味和兴趣一致的人的信任程度赋以更高的值,同时过滤掉那些与你的品味和兴趣不一致的人,Web就会显得更像你个人的Web。
这是一项庞大的工作。第一步是要建立一些标准,允许用户为Web的内容加上描述清楚的标志符或元数据,从而使准确地找到你所要寻找的内容变得更容易。下一步就是要想出一种方法使不同的程序能够与不同的Web站点建立联系,共享这些元数据。之后人们可以开始设计一些辅助的功能,比如能从给定的事实中推断附加的事实的应用软件。结果,检索就会变得更准确、更彻底,数据项将被更有效地组织,信息的真实性也更容易被检验。至少,这是所要努力的目标。
许多人觉得语义网根本不可能实现,尽管Berners-Lee设想的语义网在实验室里研究的很热,但是一些评论家认为它面临一些永远不可能解决的社会的和技术的障碍。尽管如此,这并不妨碍万维网协会和其他一些组织进行这方面的努力。美国国防部高级研究计划局(DARPA: the U.S. Defense Advanced Research Projects Agency)和一些商业性企业如位于英格兰曼彻斯特(Manchester)的Network Inference公司,已经开发了一些用于建立语义网基础结构的工具,同时也开发了一些使用语义网的应用程序。依照Berners-Lee的说法,随着越来越多的人们开始真正明白语义网是如何“允许越来越多的高级用户自由的做各种事情”,我们将会看到一些隐藏其间的闪光点。
解开语义网之谜
科学家Eric Miller的办公室在麻省理工学院计算机科学实验大楼的三层,他坐在他那拥挤的办公室里,似乎一点也没有被隔壁房间里笨重的设备所发出的噪音干扰。作为语义网项目的带头人,这位友善的、精力充沛的Miller教授太过于沉醉于他新的研究工作,完全没有注意到隔壁传来的噪音。他说“我是这世上最幸运的人,我无偿地做的那些事情都得到了应有的回报。”
Berners-Lee选择让Miller来领导协会的语义网的科研活动,因为Miller曾经参与过基于Web的知识管理项目,他有能力充满热情地阐释清楚语义网背后的那些概念。Miller站在一块画着运动着的元数据图表的白色书写板的旁边,他解释说,语义网背后的最基本的想法,就是通过计算机控制使信息在整个Web上流动的更容易,从而使Internet变得对人们更加有用。
对照来看,今天Web上的信息为方便人们使用而进行了格式化。比如说,当你在线阅读一则新闻故事的时候,你可以很容易的分辨出大字标题、标题下的署名行、日期栏、照片等等。但是如果这些内容没有被明确的标识,计算机就不知道它们是什么。对计算机来说,它仅仅是一大堆的文本罢了。而在语义网上,一则新闻故事会利用一些标志符来对其进行标识,这些标志符描述了这则新闻不同的部分,使得搜索引擎易于在众多的信息中寻找Jimmy Cater写的文章而非内容关于Jimmy Cater的文章。
目前,这还是不可能的,至少是在全球的范围内是不可能的。这些用来创建Web页面的格式化的标志符是超文本标记语言(HTML)的一部分,它们描述的仅仅是一个网页上的信息看起来应该是什么样子的(是否用黑体、大小、是否下划线等等)。语义网在描述这些之外,还要对信息是什么进行描述:比如,利用这些标志符对文本进行标识的时候应该指明主题、作者、街道地址、价格、运输费等。这些描述性的标志符就是元数据――关于数据的数据。元数据并不是什么新的概念,也不局限在互联网上。图书馆的卡片目录就是元数据,它的记录描述了一本书的标题、作者、主题、出版年和馆藏地址。
原先处于互不兼容的计算机上文件通过Web可以容易的进行交换(现在的一些Web用户可能还会记起20世纪80年代初的那些令人头痛的问题,不同厂商制造的计算机彼此不能兼容)。语义网在这方面迈出了更为深远的一步,它使计算机之间有可能就文件内部某个特定的信息块进行交换。
超越元数据
语义网不可能不使用元数据,但是仅仅有元数据还是不够的。网页上的元数据必须链接到特定的定义了元数据项以及这些元数据项之间相互联系的文件上。这些共享的概念以及概念间的互连的集合就叫做“实体”(ontology)
举例来说,你做了一个网页,上面列有某机构的成员名单。你将用诸如“主席(chair)”、“副教授(associate professor)”、“教授(professor)”等等元数据项来对不同成员的名字进行标识。接下来,你将把这个网页连接到一个实体(ontology)上,这个实体(ontology)可能是你自己创建的,也可能是别人已经建好的,它定义了教育机构的工作职位以及这些职位互相之间的关系。一个适当的实体在这种情况下应当定义“chair”为一个人,而不是人们坐在上面的物体,它暗示着主席(chair)是一个系里面地位最高的职位。
通过定义元数据项之间的关系,这些实体就可以被应用程序用来推断新的事实。假设你创建了一个网页教授学校里的小孩有关秃鹰(condor)的知识,并且已经在内容中附加了元数据。你就能够链接到一个实体上(更可能是几个实体),这些实体定义了不同的元数据项和它们之间的关系:“加利福尼亚(California)秃鹰是一种来自加利福尼亚州的秃鹰”、“所有的猛禽都是食肉动物”、“加利福尼亚是美国的一个州”、“食肉动物就是吃肉的动物”。通过利用元数据和实体,搜索引擎或其他的搜索代理在接到一个“美国的食肉动物”这样的检索提问的时候,就可以找到你的关于秃鹰的站点,尽管你的站点根本就没有提到食肉动物和美国。
因为实体的开发的工作量很大,所以站点的开发者更乐于连接到一个第三方的实体上。一些实体可能是免费的,另一些可能出售或是租赁。使用这些实体必然会面临的一个问题是:就像词典和地图集一样,*和文化的偏见也会影响到这些实体。比如中国政府维持的基于地理的实体是不可能把台湾定义为一个国家的。
但是这并不能阻止语义网的前景。当万维网协会继续努力开发语义网的标准和技术的时候,数百个组织、企业和个人也为创建工具、语言和实体做出了大量的贡献。
美国国防部高级研究计划局(DARPA)是主要的贡献者,他们的人员负责了Internet内部的大量的技术。这些日子里,美国国防部高级研究计划局为万维网协会的语义网项目捐助了几千万美金,DARPA为美国国防部开发了一种语义语言叫做DARPA代理标记语言(DARPA Agent Markup Language),这种语言允许用户往Web文件中加入元数据,并把它连接到实体上。马里兰大学(University of Maryland)计算机科学的教授Jim Hendler直到2001年8月份的时候还是DARPA这个项目的管理者,他正和Berners-Lee、Miller进行密切的合作确保和万维网协会的工作保持一致。2000年12月,Hendler宣布要创建一种语言,这种语言将DARPA代理标记语言(DARPA Agent Markup Language)的性能和欧洲开发的一种称之为OIL的实体语言(ontology language)结合起来。(OIL包括了实体推论层和实体互换语言)。
这种新语言的开发者之一,曼彻斯特大学的讲师Ian Horrocks也就语义网向万维网协会提出一些建议。2001年1月,他与其他人共同创建了一个名叫Network Inference的公司,开发使用实体和自动推断的技术,把语义网的性能应用到现有的关系数据库和大型Web站点上。最近,位于英国大不列颠群岛之一马恩岛(Isle of Man)的一家数据服务公司,PDMS,正在利用Network Inference公司的技术为公司的数据库加上语义网所具有的性能。许多其他的公司,从惠普(Hewlett-Packard)到诺基亚(Nokia),都在致力于语义网开发。
太多还是太晚?
Miller相信信息通畅完整的流动和由此产生的信息的整合,将可能使知识的处理以这样一种方式来进行:解决问题,并且刺激人们产生以前从来没有过的新的思想。尽管如此,其他的一些人对于语义网并不是很乐观,曾经在20世纪90年代末期领导过万维网协会的资源描述框架(Resource Description Framework)(该框架是一个描述和共享元数据的基本工具)开发工作的R.V.Guha说,“这项工作具有相当大的挑战性,这样的网如果存在的话就再好不过了,但是首先,有一些真正困难的研究问题需要被解决。”
一个涉及到计算机推断的问题的是,随着给系统中加入越来越多的规则,计算机从Web上的数据、元数据以及实体上得出一个推论所需要花费的时间就会急剧地增加。这样,利用计算机推断就会陷入和经典的“旅行推销人员问题”("traveling-salesman problem")相同的困境之中,后者是要确定一条穿过几个城市的最短路线,当只面对非常有限的几个地方的时候,不难找出所有可行的路线中最好的一个,但是当地点的数目变成仅仅15个城市的时候,可行的路线就增加为430亿条以上。同样的问题存在于利用计算机进行推断的情况,强力地搜索答案会导致陷入时间浪费的困境。
即使Berners-Lee和他的团队解决了这些技术挑战,也未必就可以将语义网推向实际应用中。这里存在着一个非常大的问题就是人们为获得语义网所带来的这些好处,就必须在内容中加入元数据,人们首先会考虑所获得的这些好处和为此付出的额外的努力相比是否值得。一个原因是现在的Web已经非常地成功,毕竟它创建起来非常的容易。
Jakob Nielsen是原Sun Microsystems公司的高级工程师,后来和其他人共同创建了Nielsen Norman Group公司,这是一家位于加利福尼亚州弗里蒙特市(Fremont)的Web设计公司。Jakob Nielsen说,“今天的Web是超文本最简单最基本的形式,这也就是为什么它特别容易实现,为什么每个人都可以开始创建自己的网页,为什么Web是如此的庞大。”Nielsen指出,虽然大多数的人都可以很舒服地做一些简单的编辑工作比如把正文标记为黑体字,但是,“在他们想要说‘这是作者的名字’或者‘这是我正引用的人的名字’的地方,他们无法进行语义的编辑。”
当然,这些悲观的论调可能忽视了近来发生的事实。不久前,成百万的人们学习编写HTML代码的想法似乎有些牵强,然而事实确实如此。但是,创建语义网的障碍仍然非常的大。人们可以以他们喜欢的方式来使用HTML。比如,他们通常把表格用于非表格式的用途,随便的使用“subhead”标志符其目的仅仅是为了使用黑体字。这些所谓的捷径通常只是起到了装饰的效果。但是,这样的标志符的滥用就会使网页的元数据变的不再可用,比如,当我们采用“bibliography”这个标志符来显示收藏的DVD的列表的时候。
元数据无法在Web创建的时候直接实现,使语义网被接受变得更困难了。Peter Merholz是一个特别坚决的怀疑论者,他和其他人共同创建的公司Adaptive Path位于旧金山(San Francisco),从事用户知识技能的咨询服务。Merholz说,“这些要素必须在一开始的时候就存在了,”他把语义网称作几乎没有什么社会意义的“一个有趣的学术游戏”,“语义网之所以引起很大的反响,仅仅是因为Tim Berners-Lee本人,因为他是万维网的发明人,所以人们才会对语义网感兴趣,如果它只是由印第安纳州(Indiana)某个大学的一些不知名的家伙提出的话,没有人会去理睬这件事。”
最初的想法
甚至是Berners-Lee本人也承认实现语义网要比万维网来得慢,他说,“在某种程度上讲,我们也不需要走得太快,因为人们需要考虑以确定我们没有发疯,而另外的一些人们在语义网被采纳和广泛使用之前,需要在实际中对这些思想进行检验。”
Berners-Lee在被问及他对未来的看法的时候,他预期语义网最初的一些商业化应用的目标,将会是对一些大的组织内部共存的不同的信息系统进行集成。(无须填写半打基本上无用的表单就可以照看摩托车部门或是医院的生意不是很好么?语义网就可以帮助实现它。)
尽管语义网仍然主要停留在研究阶段,但是已经可以从一些现有的Web站点上看到一些它的威力。考虑一下Moreover Technologies公司的搜索引擎,它每天会对成千上万的新闻站点巡视好几次,因此它受到新闻用户的喜爱。Moreover公司的软件代理编写了计算机程序,用这些程序来查看字体标志符(即HTML语言的标志符,用来告给浏览器在屏幕上显示的文本的大小),用以确定一个特定的网页是不是一篇新闻故事。如果Moreover的代理在一个网页的顶端附近发现了一个标识为大号字体的6到18个字长的字符串,它就会假定它是一个大字标题,把它放到数据库里。当然,因为这个软件代理仅仅是在猜测,所以,有时它选中的网页可能根本就不是一个新闻故事。因此,Moreover公司必须进行进一步地过滤,去除那些不含文章的网页。
距离最终目标的实现还有很长的距离,但这是一个好的开端。甚至就是语义网的拥护者也不能确切的知道这些努力会把我们带向什么地方。毕竟,当Berners-Lee在1990年12月启动世界上第一台Web服务器的时候,谁又能够想象到后来出现的Amazon.com或者eBay呢?
但是,重要的在于人们想从Web上获得比现在所得到的更智能化的信息,越来越多的计算机科学家分享了Berners-Lee的观点的闪光点,这位万维网的发明人说,“再次获得大众的广泛的热情真是太好了。”
|
|
|
|
设为首页 | 加入收藏 | 广告服务 | 友情链接 | 版权申明
Copyriht 2007 - 2008 © 科普之友 All right reserved |