近日,中国科大苏州高研院医学影像智能与机器人研究中心(MIRACLE)的DDL实验室(Data Darkness Lab)在神经数据结构方面的研究论文“Learning to Sketch: A Neural Approach to Item Frequency Estimation in Streaming Data”被国际人工智能领域顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)2024收录。
在流式数据处理领域,估计数据流中数据项的频数是一项基本且重要的任务,在网络、数据库和机器学习等领域都有着广泛的应用。对于该任务,常见的解决方案是使用一类概率数据结构,称为Sketch。Sketch利用较为紧凑的空间来一遍式地存储数据流,以近似估计数据项的频数。然而,现有的Sketch结构面临哈希冲突带来的性能瓶颈,同时无法很好地利用数据流分布的模式特征以提升频数查询的准确性。为此,论文创新性地提出了一种基于内存增强网络和元学习的神经Sketch结构,称为Meta-Sketch。Meta-Sketch能够高效地压缩数据流,并通过全面感知和利用数据流分布的模式特征来实现更为准确的频数估计。Meta-Sketch是首个用于流式数据处理的神经数据结构,为数据流上的频数估计任务开辟了新的范式,在大量真实/合成数据集上的实验证明了Meta-Sketch相比于已有方法的优越。同时,论文还研究了多媒体数据流场景和图数据流场景下Meta-Sketch的扩展性部署,并给出了Meta-Sketch各个模块的机制分析和优化思路。
Meta-Sketch的架构
IEEE TPAMI是人工智能、模式识别、计算机视觉等领域的国际顶级期刊,是目前影响力最高的CCF A类期刊之一。该论文的共同第一作者为中国科大计算机学院的博士生曹宇坤和硕士生冯源,第三作者为计算机学院的硕士生王海如,共同通讯作者为生医工学院的谢希科研究员和周少华教授。
论文链接:https://ieeexplore.ieee.org/document/10499867
(医学影像智能与机器人研究中心,生物医学工程学院,科研部)