相关文章  
  • 核心逻辑芯片
  • 下载数据至便携式电子装置的方法以及系统
  • 互联网关键字的解析方法及系统
  • 处理单日营运基础的运输勤务组员派遣的演算方法
  • 用于运具调度派遣的演算方法
  • 信息处理系统,输出、处理装置和方法,记录介质及程序
  • 信息提供服务器、终端装置及其控制方法以及信息提供系统
  • 自动创建上下文信息提供配置的系统
  • 自主智能异构数据集成系统及方法
  •   推荐  
      科普之友首页   专利     科普      动物      植物        天文   考古   前沿科技
     您现在的位置在:  首页>>专利 >>专利推广

    基于信息抽取技术的搜索引擎<%=id%>

    br> 颁 证 日:
    优 先 权:
    申请(专利权)人: 浙江大学
    地 址: 310027浙江省杭州市玉古路20号浙大计算机系
    发 明 (设计)人: 吴朝晖;徐杰锋;陆伟
    国 际 申 请:
    国 际 公 布:
    进入国家日期:
    专利 代理 机构: 杭州九洲专利事务所有限公司
    代 理 人: 陈继亮
    摘要
      本发明涉及一种基于信息抽取技术的搜索引擎,利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学习,调整规则数目和抽象程度,使其满足精度要求,然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。本发明有益的效果是:将信息抽取技术与搜索引擎技术有机地结合在一起,是一个非常有效、准确的信息获取工具,它能够较大范围地提高人们的工作效率。
    主权项
      权利要求书 1、一种基于信息抽取技术的搜索引擎,其特征是:利用机器学 习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行 学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规 则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量 地获取,并从半自由的HTML文本中获取结构化的信息。
         

          设为首页       |       加入收藏       |       广告服务       |       友情链接       |       版权申明      

    Copyriht 2007 - 2008 ©  科普之友 All right reserved