第47届VLDB2021大会在丹麦哥本哈根举行
当地时间8月16日至20日,第47届VLDB 2021大会在丹麦哥本哈根举行。
VLDB会议的全称是超大型数据库国际会议,是数据库领域的顶级学术会议另外两大数据库会议SIGMOD和ICD共同构成了数据库领域的三大顶级会议
按照惯例,今年的VLDB会议设立了最佳研究论文奖和最佳学术论文奖,b论文奖,最佳可扩展数据科学论文奖,最佳工业论文奖等诸多奖项。在此之前,中国学者在这一领域骑行,今年也不例外!
《人工智能科技评论》对获奖的中国学者和论文信息介绍如下:
最佳研究论文奖
获奖论文《Scaling Attributed Network Embedding to Massive Graphs》
个人主页:点击打开
论文地址:点击打开
论文摘要:
属性网络嵌入是获得精确预测的一项具有挑战性的任务,但将有效的ANE计算扩展到包含数百万个节点的海量图,将它的难度推向了一个新的高度现有的解决方案基本上在这个图上失败,或者导致高成本,低质量的嵌入,或者两者兼而有之
本文提出了一种有效的,可扩展的计算海量地图的PANE方法,该方法在多个基准数据集上达到了最高的性能水平其度量标准包括三种常见预测任务的准确性:属性推理,链路预测和节点分类尤其是PANE是目前已知唯一可行的大MAG数据解决方案,节点超过5900万,边数超过9.8亿,属性超过2000个,可以在12小时内有效嵌入到单台服务器上
PANE通过三个主要算法的设计,实现了较高的可扩展性和有效性首先,基于一种新的属性随机游走模型,提出了学习目标,但在处理大型图的优化任务时仍然具有挑战性其次,PANE为解决优化问题提供了高效的求解器,其关键模块在于设计良好的嵌入初始化,大大减少了收敛所需的迭代次数最后,PANE通过上述求解器的非线性并行化,利用多核CPU,从而实现可扩展性,保留高质量的嵌入结果通过广泛的实验,在8个真实数据集上对比了10种现有方法,证明PANE在结果质量上优于所有现有方法,速度快几个数量级
最佳EAamp论文奖
获奖论文:《Are We Ready For Learned Cardinality Estimation。》
个人主页:点击打开
论文地址:点击打开
论文摘要:
基数估计是查询优化中一个长期未解决的基本问题最近,来自不同研究小组的许多论文一致指出,基于学习的模型可能会取代现有的基数估计器对此,我们提出了一个前瞻性的问题:基于学习模型的基数估计方法能否应用于真实的数据库产品本文的研究包括三个主要部分:第一,聚焦于静态环境,在统一的工作量设置下,比较了不同学习方法和传统方法在四个真实数据集上的性能,结果表明,基于学习的方法比传统方法更准确,但需要更高的训练成本和推理成本第二,基于学习的方法是否可以用于动态环境实验表明,它们跟不上快速更新数据的变化,可能会造成较大的误差
基于学习的方法中几种可能错误的现场研究我们发现相关性,分配或域大小的变化将极大地影响该方法的性能更重要的是,这些方法的行为往往难以解释和预测基于上述发现,我们确定了未来需要进一步研究的两个方向,即如何降低学习模型的成本和如何提高模型的可信度
导研究人员和从业人员共同合作,将基于学习到的基数估计器应用到真正的数据库系统中。
最佳可扩展数据科学论文奖
获奖论文:《Optimizing Bipartite Matching in Real—World Applications by Incremental Cost Computation》
论文地址:点击打开
论文摘要:
Kuhn—Munkres 算法是一种经典的组合优化算法,在交通等诸多应用场景中被广泛用于最小成本的二部匹配例如,网约车服务可以用它来匹配司机和乘客,以尽可能地缩短等待时间通常情况下,给定的两个二部集合,需要计算所有二部对之间边的成本并找到最优匹配可是,现有研究忽略了边成本计算对整体运行时间的影响实际上,边计算会大大超过最优分配本身的计算,例如在为乘客匹配司机时,最短路径往往需要很高的计算成本根据这一观察,我们发现,常见的现实世界的设置表现出一个有用的特性,即允许我们仅在需要时使用最低的下限启发式增量计算边成本与原始 KM 算法相比,这种技术显著降低了分配的总体成本,这一点我们已经在多个真实数据集,工作负载上得到了验证此外,该算法并不限于这个领域,它还可能适用于其他有下限启发式算法的环境
最佳工业论文奖
获奖论文:《RAMP—TAO: Layering Atomic Transactions on Facebook's Online TAO Data Store》
论文一作 Audrey Cheng 目前是加州大学伯克利分校计算机科学专业在读博士生,RISELAB 成员,师从 Ion Stoica 教授和 Natacha Crooks 教授,曾获得伯克利校长奖学金,对数据库与分布式系统感兴趣。
个人主页:点击打开
论文地址:点击打开
论文摘要:
与其他分布式数据存储一样,Facebook 社交图谱 TAO 会优先考虑可用性,效率和可扩展性等因素,而不是满足大型,可读性强的工作负载所需要的一致性或保密性伴随着产品开发人员在此系统上构建不同的应用程序,他们开始更多地关注业务语义可是,为选定的应用程序提供高级功能,同时保持系统整体的可靠性和性能一直是一项挑战在本文中,我们首先描述了开发者多年来的业务需求,以及目前 TAO 出现的原子级错误,以此探讨了如何引入一个直观的读取业务 API我们通过对潜在异常的测量研究,强调了 API 原子级可见性的必要性,这些异常通常在没有强读取隔离的情况下发生我们的分析表明,1500 次批量读取中有 1 次反映部分业务性更新,这可能使开发人员体验变得复杂化,并产生意外的结果为了缓解这个问题,我们提出了 RAMP—TAO 协议,这是一个基于读取原子级多分区协议的变体,支持最小开销的部署,同时确保大规模读取优化工作负载的原子级可见性