官方微信|手机版|本站服务|买家中心|行业动态|帮助

产品|公司|采购|招标

网络信息

参考价面议
具体成交价以合同协议为准
  • 公司名称杭州比丘信息工程有限公司
  • 品       牌
  • 型       号
  • 所  在  地杭州市
  • 厂商性质生产厂家
  • 更新时间2017/6/27 18:16:41
  • 访问次数5281
在线询价 收藏产品 查看电话 同类产品

联系我们时请说明是 制药网 上看到的信息,谢谢!

       服务:计算机软硬件、电子智能系统、数码产品、网络信息技术的开发、研究、技术服务、成果转让;通信工程、计算机网络工程的设计、安装、施工(涉及资质证凭证经营);批发、零售:计算机软硬件,网络设备,电子智能设备,办公自动化设备及耗材

计算机软硬件、电子智能系统、数码产品、网络信息技术的开发、研究、技术服务、成果转让;通信工程、计算机网络工程的设计、安装、施工(涉及资质证凭证经营);批发、零售:计算机软硬件,网络设备,电子智能设备,办公自动化设备及耗材
属于网络内容挖掘(Web content mining)研究的一部分,主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Information integreation)和观点挖掘(Opinion mining)等。
 结构化数据抽取(Structured Data Extraction)的目标是从Web页面中抽取结构化数据。这些结构化数据往往存储在后台数据库中,由网页按一定格式承载着展示给用户。例如论坛列表页面、Blog页面、搜索引擎结果页面等
网络信息 产品信息

           传统的网络数据抽取是针对抽取对象手工编写一段专门的抽取程序,这个程序称为包装器(wrapper)。近年来,越来越多的网络数据抽取工具被开发出来,替代了传统的手工编写包装器的方法。目前的网络数据抽取工具可分为以下几大类(实际上,一个工具可能会归属于其中若干类):
  ?开发包装器的语言(Languages for Wrapper Development):用户可用这些语言方便地编写包装器。例如Minerva,TSIMMIS,Web-OQL,FLORID,Jedi等。
  ?以HTML为中间件的工具(HTML-aware Tools):这些工具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前,这些工具先把文档转换成标签树;再根据标签树自动或半自动地抽取数据。代表工具有Knowlesys,MDR。
  ?基于NLP(Natural language processing)的工具(NLP-based Tools):这些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技术建立短语和句子元素之间的关系,推导出抽取规则。这些工具比较适合于抽取那些包含符合文法的页面。代表工具有 RAPIER,SRV,WHISK。
  ?包装器的归纳工具(Wrapper Induction Tools):包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。这些工具和基于NLP的工具之间zui大的差别在于:这些工具不依赖于语言约束,而是依赖于数据的格式化特征。这个特点决定了这些工具比基于NLP的工具更适合于抽取HTML文档。代表工具有:WIEN,SoftMealy,STALKER。
 

 

  ?基于模型的工具(Modeling-based Tools):这些工具让用户通过图形界面,建立文档中其感兴趣的对象的结构模型,“教”工具学会如何识别文档中的对象,从而抽取出对象。代表工具有:NoDoSE,DEByE。
 

 

  ?基于本体的工具(Ontology-based Tools):这些工具首先需要专家参与,人工建立某领域的知识库,然后工具基于知识库去做抽取操作。如果知识库具有足够的表达能力,那么抽取操作可以做到*自动。而且由这些工具生成的包装器具有比较好的灵活性和适应性。代表工具有:BYU,X-tract。
 

 

  网络数据抽取技术流程的实现
 其具体步骤如下(以zui通用的‘Knowlesys采集’步骤为例)
 

 

  

 

  *步,确立采集目标,即由用户选择目标。
 

 

  第二步:提取特征信息,即根据目标的网页格式,提取出采集目标数据的通性。
 

 

  第三步:网络信息获取,即利用工具自动的把页面数据把存到数据库。
 

在找 网络信息 产品的人还在看

提示

×

*您想获取产品的资料:

以上可多选,勾选其他,可自行输入要求

个人信息: