基于信息抽取技术的搜索引擎<%=id%>

br> 颁证日：
优先权：
申请(专利权)人：浙江大学
地址： 310027浙江省杭州市玉古路20号浙大计算机系
发明 (设计)人：吴朝晖;徐杰锋;陆伟
国际申请：
国际公布：
进入国家日期：
专利代理机构：杭州九洲专利事务所有限公司
代理人：陈继亮
摘要
　本发明涉及一种基于信息抽取技术的搜索引擎，利用机器学习的方法，对含有同类信息且布局基本一致的HTML页面样本集进行学习，从而得出对此类HTML页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。通过训练和学习，调整规则数目和抽象程度，使其满足精度要求，然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面，利用规则进行信息提取。本发明有益的效果是：将信息抽取技术与搜索引擎技术有机地结合在一起，是一个非常有效、准确的信息获取工具，它能够较大范围地提高人们的工作效率。
主权项
　权利要求书 1、一种基于信息抽取技术的搜索引擎，其特征是：利用机器学习的方法，对含有同类信息且布局基本一致的HTML页面样本集进行学习，从而得出对此类HTML页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。

设为首页 | 加入收藏 | 广告服务 | 友情链接 | 版权申明