阅读内容 

西风信息采集系统 Ver 1.0

[日期:2005-03-13] 来源:中国站长学院  作者:sifen [字体: ]

总述

如何对互联网中浩瀚的信息进行适时有效的监测与整理,常常是令专业人士备觉困扰的重要问题。SGIS技术应用于信息跟踪、监测、整理与采集领域,通过对无效信息的屏蔽与适用信息的智能分拣、以及更为开放更具针对性的检索设定,将使网络信息检索与整理工作变得更具效率、更为简捷;实际上,这款基于成功推出的SCMS基础研发的独立采集系统,其“所需即所得”功能将使专题的更新与管理工作大大提高效率,并且更为容易。
??
主要功能

强大的信息采集能力

西风信息采集系统是以XML技术为核心,针对专业用户所要求的信息搜索深度、精度和速度等进行了专门的优化,采用了分布式多线程并发指令执行体系结构,能够采集各种动态、静态网站类型的信息,包括XML/HTML/JSP/ASP/PHP/JavaScript等等技术类型,同时自动下载目标信息中包含的图片、动画、附件等任何有效信息。技术实现分秒监测网站信息变化动态,使网站随时获取最新的信息资源。

智能化信息提取技术

当用户在最短时间内获取了其需要的海量的信息页面,其处理工作也就可想而知了,西风信息采集系统能够根据用户的定义规则,智能化提取有效信息,对无效信息进行智能屏蔽,分析保存有效数据,并按照要求智能分类。

登录网站信息的采集

系统支持登录类型网站的采集,包括会员制网站、论坛、blog等等所有需要登录的网站的信息进行采集,让你最短时间内获取到互联网上的专业型资料。

自动关键字处理

用户可以通过设置关键字获取指定的信息,关键字支持与、或、非的逻辑组合,同时,系统还提供完善的关键字管理功能。

开放式的数据接口

系统采集到的网页信息经过各种自动标引和加工处理后统一的格式存放到数据库,方便应用的定制开发和与其它产品的集成;还可以把信息直接导出为文本文件或直接导入到现有的信息管理系统中。

内嵌全文检索

用户无须对检索内容做任何标引, 即可对全文信息进行快速检索,全文搜索引擎是针对中文特性而研制的检索软件,具有极高的平均响应速度,真正作到亿万汉字秒级响应。1GB中文全文数据,100万条记录,单机平均检索速度为0.1秒。
???
系统架构


领先优势

·在相同行业或类似产品中,功能更强大,技术更先进,设计更合理,操作更简便。
·自动防止IIS死机技术,采集过程流畅到底。
·增量式采集数据,采集信息无重复。
·多线程支持,系统可以根据网络带宽和数据流量自动调节启动的进程数和线程数。共享2M带宽即可达到,平均每小时下载240M数据,或约12万个网页。
·自动保存网页中图片、动画、附件等等内容。
·领先的登录采集技术,即使是加密信息也能轻松获取。
·遗漏信息自动保存,确保数据完整无缺。

阅读:
录入:

推荐 】 【 打印
相关新闻      
本文评论       全部评论
发表评论
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款


点评: 字数
姓名:
Advertisement
内容查询


Advertisement