项目简介
“网络大数据计算的基础理论及其应用研究”(批准号:2014CB340400)是中科院计算 所承担的国家 973 计划项目,起止时间是2014年1月1至2018年12月,于2018年11月17日通过了科技部基础研究管理中心组织的验收。 本项目围绕公共安全与经济发展的战略性需求,面向网络空间大数据的现状感知与态势预测等实际问题,重点解决网络大数据的数据复杂性、 计算复杂性和系统复杂性三方面带来的挑战性问 题,以“网络大数据复杂性的内在机理”、“网络大数据可计算性与新型计算范式”和“网络大数据处理系统的效能评价与优化” 三个科学问题 为核心,提出网络大数据计算的基础理论体系, 在若干项关键技术和系统架构形成突破,取得了 一系列成果。
项目针对网络大数据的主要特性和网络大数 据计算面临的数据复杂性、计算复杂性和系统复 杂性三个主要科学技术挑战,从理论、方法、应 用三个方面展开研究,形成了系列创新研究成果。 在理论层面,提出了核数据概念统领项目研究, 通过分析结构化、非结构化、半结构化网络大数 据的分布特性,揭示了网络大数据固有的多尺度 并存、复杂关联和高维时变的内在规律和解空间 的分布不均匀特性,为我们通过寻找核数据实现 网络大数据简约计算提供了理论指导。在方法层面,在核数据理论的指导下,从数据剪枝和数据 变换两个角度探索了网络大数据简约计算方法; 提出了基于支配关系的数据剪枝方法和基于领域 知识的启发式数据剪枝方法,通过对数据空间的 剪枝获得核数据,避免了对整个数据空间进行处 理,大幅降低了计算复杂度;提出了基于时空尺 度变换的网络大数据简约计算方法,利用网络大 数据的时空关联对数据进行变换,从而实现简约计算。在应用层面,围绕网络违法犯罪线索发现 与行为预警、突发敏感事件检测与安全态势预警 两个场景对本项目提出的理论和方法进行了应用验证,取得了很好的应用效果。
发表或录用学术论文 380 余篇 , 其中在 IEEE/ ACM Transactions 等国际一流学术刊物发表论文 59 篇,本领域顶级学术会议论文 137 篇, SCI/SSCI 检索论文 158 篇 ; 申请发明专利和软件 著作权 111 项 , 其中获得授权 33 项 ; 出版专著 1 本;培养出优秀中青人才 10 人,1 人获得国家杰 出青年基金,1 人入选国家万人计划领军人才。1 入选“长江学者奖励计划”特聘教授,2 人入 选“长江学者奖励计划”青年学者,1 人获得何 梁何利奖,2 人获得“优秀青年基金”,2 人入 选中国科学院青年创新促进会优秀会员(中国科 学院青年人才计划),1 人获得 2015 年国家技术发明奖,1 人获得 ACM SIGCOMM China 2018 年度新星奖,1 人入选 CCF 青年人才发展计划, 1 人获得上海市青年科技启明星计划人才称号,1 人入选天津市中青年科技创新领军人才,2 人入 选高级技术人才,2 人晋升为研究员,3 人晋升为副研究员,1 人晋升为教授,1人晋升为副教授,1 人晋升为博士生导师;共培养博士生 66 名, 硕士生 120 名 ; 在学术交流方面共组织了 FFC, CCIR,CCBD,BDTC 等共计 12 次国内大数据相关会议, VLDB Summer School,BPOE, 高性能计算,龙星计划,全国信息存储等15次学术活动,12次国际研讨会, 包 括 PAKDD, ICDM,SIGIR 在内的 workshop,以及其他技术 研讨与交流会 22 次,还举办了一个博士生论坛, 承办了天津市第十四届国际科技交流学术月“人工智能与深度学习”,承办了第十二届亚洲信息 检索会议;组织国内大数据相关比赛 5 次,发布 了搜索、推荐、开源数据集 30 余个,发布了一 套面向匹配的深度学习工具开源库 MatchZoo, 在 GitHub 上开源了两个机器学习系统 Angel 和 xLearn。
相关图片
图 1 核数据解决方案 图 2 股票交易中支配关系的核数据
图 3 图计算动态调度中支配关系 的核数据 图 4 论文引用中尺度变换的核数据 图 5 异构非结构化数据中超球 分布的核数据
图 6 传播网络中启发式剪枝 的核数据 图 7 数据时空局部聚集的略图核数