公司主页
产品中心
企业介绍
关于我们
Blog
互联网信息采集分析系统 ===================== 互联网新闻信息采集分析系统包括Spider组件、File组件和Monitor组件,分别负责网络信息采集、文件系统信息采集和数据库信息采集。 ## 功能模块介绍 ### 1.信息采集模块 采用了分布式多线程并发执行、增量实时索引、智能分词等多项先进技术,采集和数据管理效率非常高,可以灵活设置更新周期。 客户端采用可视化的配置工具,灵活配置应用属性页的抓取信息。经顾客严格测试,漏搜率明显低于其他厂商,用中低端硬件可达到理想的采集效果。 互联网新闻信息采集分析系统包括Spider组件、File组件和Monitor组件,分别负责网络信息采集、文件系统信息采集和数据库信息采集。 * **Spider组件**: Spider组件用来将Internet/Intranet的信息导入信息库,它采用先进的多线程并发架构设计,能够高效采集互联网、局域网、专网内网上的各种信息资源。在对网页类型的支持上,不仅可以采集常见的动态或静态网页,还能够支持Javascript制作的动态网页,以及多种认证网站的信息采集,皆为业界独有。 * **File组件**: File组件用来采集文件系统中的多种文档信息,目前支持基于MS Windows和Linux两大操作系统的多种文件系统,包括FAT32、NTFS、EXT、EXT16、EXT32等。支持的文档类型包括.txt、.rtf、.pdf、.doc、.ppt和.xls等。 * **Monitor组件**: Monitor组件用来将数据库数据批量导入系统信息库并保持时实同步。系统在第一次创建信息库时需将数据库数据一次性导入(其中还包括对多表、甚至多个数据库通过联合查询或视图等方式进行数据的整合),此后,Monitor组件通过数据库Trigger机制保持信息库对数据库内容变化的实时更新。 ![-width=650](/download/5a7131123dcb5c2020b93e7b =700x600) ###2. 头条新闻获取 通过获取各大网站的头条新闻,并根据新闻的评论数和点击率进行分析,在首页实时显示当前评论数排行和点击率排行,并对时政热点、社会热点等进行分析,列出当天的热点文章。 ###3. 热点排行榜 热点是一个在实践中颇受各用户欢迎的功能,通过绑定主题检测技术自动获取网民对新闻的点击率、评论数,加以统计网页被转载情况、相同文章数、相似文章数等信息,智能分析本地区近期热点,对该信息的新闻报道、论坛热帖、境外报道等进行收集分析,显示其变化趋势、传播路径、各网站报道情况等生成专题页面,实现很多各大网站的专题所没有的内容和分析功能。 同时,可通过自动聚类技术,自动聚焦这段时间当地的网上热点信息,并以3D聚类图和2D信息岛图展现聚类过程和结果,让用户直观的了解到热点分布和关联。 ###4. 存储发布模块 采集分析系统所采集分类后的信息将会保存到数据库中,并自动发布至网页,供用户直接进行浏览,该功能即通过发布模块为完成。 * **信息存储**: 采集分析系统支持标准数据存储接口,可以根据用户实际使用环境将采集分类后的信息进行存储。这里的存储不仅包括信息标题、正文、时间等内容,还包括采集到的网页上的正文图片、文章智能摘要、重复文章信息、相关文章信息等大量内容。用户可以通过简单的接口调用方便的将这些信息导入到其他应用系统中,满足更多应用。 * **自动发布**: 采集分析系统能够将经过采集分类后的信息自动发布至发布界面,用户可以登录系统网址,根据自己的权限方便的浏览所需要的信息。该发布系统不仅可以显示经过抽取后的信息内容,还能够显示采集到的网页正文图片,文章智能摘要、网页快照、重复文章列表、相关文章等大量丰富的内容。 ##技术优势说明 ###1.分钟级的实时采集技术 基于全球领先的网页智能采集技术,可达到每5分钟更新一次的分钟级更新频率,同时目前系统可支持对上万个网站同时进行采集与分析,采用了多线程并发指令执行体系结构、增量实时索引、智能分词、相关性分析和模糊匹配等多项先进技术。 ###2.支持图片采集 支持jpg、bmp、gif、png等多种图片格式,能够采集和网页内容相关的图片,并智能自动过滤掉无关的各种广告图片。当用户浏览文章时,可以浏览与其相关的配图,并对图片进行管理。 ###3.信息自动去重功能 快速准确的自然语义分析模块对每篇自动抽取语义模型并加以互相比对,通过独有的去重引擎自动抛弃重复链接和内容相同的链接,提高文章阅读的效率,并标注该网页重复数提示用户。 ###4.独有网页正文提取 特有文章内容智能提取模块,通过识别网页中的元素,并对其进行分析,从而找出网页中广告、菜单、友情链接等和文章无关的信息并在提取过程中把它丢弃,最终只保存文章的标题和正文,提取准确率达到领先水平。 ###5.精确的智能摘要 特有的智能语义分析引擎能够根据文档内容自动抽取文档摘要信息,这些摘要能够准确代表文章内容主题和中心思想。用户无需查看全部文章内容,通过该智能摘要即可快速了解文章大意与核心内容,提高用户信息利用效率。 ###6.Word文档导出 作为对采集信息的信息加工服务之一,支持采集网页之后提取其正文内容和智能摘要,在此基础上可以选定一个或多个信息批量导出到Word、Excel、文本文件等文件中,从而更好的被信息处理人员利用。
abeen 2018-01-27 12:50:54.107000
北京大奥世纪网络科技有限公司
邮箱: daaoshiji@daaoshiji.cn
电话: 18510238382
地址: 北京市朝阳区王四营乡人民日报印刷厂房2层206室