当前位置:首页 >> 基金要闻 >> 资助成果

 

    我国学者在众包数据管理系统方面取得进展

    日期 2022-04-29   来源:信息科学部   作者:张敬林 吴国政 赵瑞珍 肖斌 陈厅  【 】   【打印】   【关闭

    图 众包数据管理系统研究示意图

      现有数据管理系统很难处理复杂推理任务(例如实体识别、实体匹配等),众包数据管理系统通过人机协作的方式,充分利用人的认知与推理能力以及机器的复杂计算能力来处理复杂任务。然而众包数据管理面临异质众包群体难度量、众包数据处理难控制、复杂计算任务难优化等挑战性难题。因此亟需研究众包计算的度量模型、可控理论、优化机制,建立众包数据库的基础理论和关键技术,研制通用的众包数据库管理系统,对我国数据管理领域的发展具有深远意义。

      在国家自然科学基金重点项目(批准号:61632016)的资助下,清华大学李国良带领团队在众包数据管理系统方面取得研究进展,突破了质量感知的众包群体度量模型、基于迭代决策的代价控制方法、资源受限情况下延迟优化技术,提出了基于图迭代的众包数据库查询优化模型和细粒度优化技术,在此基础上研制了一套众包数据库管理系统。该系统比现有的众包数据库系统CrowdDB(伯克利大学)、Qurk(MIT大学)、Deco(斯坦福大学)节省了5.2倍的众包计算代价。该系统应用于好未来、腾讯、国家电网等公司,用于解决复杂数据(例如教育数据、广告数据、出行数据)的融合和推理任务,产生了10多亿元的经济效益,获得了国家科技进步二等奖(2018年)、江苏省科技进步一等奖(2019年)、国家电网科技进步一等奖(2021年)(图)。