9999js金沙老品牌(中国)有限公司

当前位置：网站首页 > 学术动态 > 正文

我院沈炜教授团队在 AICCSA 上获最佳论文奖

【来源： | 发布日期：2021-12-13 | 点击数：】

近日，我院沈炜教授课题组在AICCSA（The ACS/IEEE International Conference on Computer Systems and Applications）发表了题为“On a small file merger for fast access and modifiability of small files in HDFS”的研究论文，并荣获该刊最佳论文奖。沈炜老师指导的2019硕士研究生陈定超为该论文第一作者。这是我院科研工作取得的又一项可喜成果。

随着信息化时代的发展，广泛用于数据挖掘、数据分析、机器学习的大数据领域已经成为当前最为火热的领域。该领域中，HDFS（Hadoop Distributed File System）系统广泛用于大数据文件存储，是一切大数据应用的基石。其设计初衷是用于存储大文件，可如今却不可避免的需要存储小文件。例如，图片、音频数据集，网站日志等。但是，大量的小文件会导致HDFS的NameNode内存不足和性能低下。

为解决针对小文件的存储问题，沈炜教授团队进行了广泛地调查研究。团队深入分析小文件的产生原因及其所带来的影响，共同商讨出解决方案，并由此开发出SFM（Small File Merger）系统。该系统通过将众多小文件合并成一个大文件的方法，有效缓解NameNode内存的压力，同时通过Two-Level index结构，实现了高效的文件读取。与此同时，为了提升SFM的兼容性，系统提供了原生HDFS API，这样无需重写上层的应用代码就可以实现直接使用。

为了进一步提升SFM读取文件的性能，团队提出了基于SPSA（Simultaneous Perturbation Stochastic Approximation）的自适应预读。SPSA算法能很好的处理在大数据heterogeneous集群中各种随机波动（网络波动，节点故障，资源竞争等），使得预读更具有通用性。除此之外，SPSA不像传统的机器学习算法需要通过大量的数据集进行训练，SPSA更加高效，能够在不影响整个集群性能的情况下自适应地调整每一次预读。

经系统测试，沈炜教授课题组开发的SFM可以使得整个集群读写性能提升至少一倍，切实提高了使用性能和效率。