加入收藏 | 设为首页 | 会员中心 | 我要投稿 辽源站长网 (https://www.0437zz.com/)- 云专线、云连接、智能数据、边缘计算、数据安全!
当前位置: 首页 > 创业 > 模式 > 正文

范承工:谈基于持续性内存的分布式融合数据平台

发布时间:2019-09-23 02:39:14 所属栏目:模式 来源:DOIT
导读:副标题#e# 8月22日-8月23日,2019全球闪存峰会(Flash Memory World)在杭州召开。在8月23日下午举行的全闪存应用论坛上,MemVerge公司CEO、联合创始人范承工应邀出席并发表了《基于持续性内存的分布式融合数据平台》的演讲,就基于持久性内存和非易失性内存

分布式文件系统很多,市场上无论是开源的还是闭源的,无论是美国还是中国有很多成熟的分布式文件系统,但没有一个分布式文件系统是专门为SCM设计的,因为SCM的延迟和传统的SSD和HDD延迟有几个数量级的差别,所以过去的分布式文件系统直接拿来跑在memory上软件本身会成为瓶颈,本身不是为了这个速率所设计的。基于新的硬件原生在上设置出了新的分布式文件系统,能够在内存速度来进行内容的复制和管理,其中有了一些新的想法在分布式文件系统里得到实现。

分布式内存系统,除了提供更快的存储接口之外,我们也想提供更大的内存接口,首先SCM本身提供一个更大的内存,本身有6个T,但是现在有的应用6个T内存都不够,需要有更大的内存,在内存里完成主要的工作。

我们通过分布式的方式让第一代产品可以有128个节点,在128个节点内存整个变成一个池子,在里面做成三层的分阶的分布式内存系统,首先是本地DRAM作为第一层,第二层是本地SCM,第三层是旁边节点SCM。

通过这三层智能的管理,我们可以提供高达700个T的内存。

在这个环境之上,我们就能够充分发挥SCM硬件的优势,使得上面不需要改动就可以有以前不可能获得的容量内存、不可能获得的速度存储,同时提供了更大的内存和更快的存储。

这是我们技术大概的介绍。

这三个是我们技术主要的核心模块,我们整个架构把它叫做MCI,我们认为这个是未来数据中心重要的架构前移。

这个是对我们技术稍微更详细模块的解释,主要是给大家展示一下软件在系统里处在什么样的位置。底下是硬件一个一个服务器,把它叫做计算节点,这里面第一步会支持128个节点,中间我们推荐用RDMA这种快速的网络,把这些节点联络在一起。

在每个节点里除了CPU之外有三种介质,为什么有三种介质呢?内存的服务用DRAM+SCM两层的模式来提供内存的服务,就像我刚才说的有DRAM、SCM以及远方的SCM一起来提供大内存的服务。

SCM和SSD两层合在一起提供存储层的服务,SCM是我们第一层存储,SSD是第二层存储。通过SSD可以增大存储服务的容量,而且降低成本。在我们硬件、软件的上面是主要目标应用场景。现在我们对准的是三种场景,都是以数据为中心的应用。

第一种是机器学习、AI,尤其是AI训练的场景;第二种大数据分析常见的应用平台;第三种搜索查询应用。我们现在也将这几个应用与合作伙伴客户进行POC的工作,但产品还没有正式发布,主要在三个工业领域和早期客户合作,第一个是互联网服务的领域,包括云服务商,包括互联网的服务商,第二个领域主要是金融,包括银行、基金、市场。第三个HPC高性能计算,以及AI专门的服务,这三个是主要的客户领域,这些是主要的应用场景在产品上进行部署和尝试。

下面给大家举两个例子,客户如何使用技术提高效率减少成本。

第一个例子是社交网络,是美国非常大的社交网络服务商有几个亿用户,有几百亿互相的连接,在服务平台上非常重要的服务就是向大家推荐认识的人连起来,或者有什么工作想要找去找,这是一个非常重要而核心的推荐引擎。。

这个推荐引擎背后是有机器学习的模型支持的,现在用的是Google 2016年推出的模型,这是非常扁平而大的模型,训练数据又很大,数以亿计的节点,以及百亿计的连接,这些数据要跑1000多次,整个是非常长时间的分布式的训练工作。

现有的瓶颈在哪里呢?一方面用的HDFS的存储系统,还有很多存储是落到本地的SSD盘上。这是一个跑的时间非常长,要跑两个星期,中间如果有节点坏了,需要从头重新跑起来。如果打开Checkpoint,要每次写到盘上,整个工作又慢了。所以非常纠结,到底Checkpoint应该开还是不开,开出来又不能够做的非常高频。我们的解决方案使用我们的产品把所有的SSD全都取代了,无论是训练数据的存放点,还是中间数据的存放点全由我们的分布式文件系统来承受。

这个做的效果使AI速度提成了6倍,原先数据导入来自各个地方,本来非常慢,现在提高了350倍,效率得到很大的提高。这是第一个在机器学习训练场景上对我们场景的应用。

第二个例子在大数据分析,这个是和腾讯云的合作云数仓的服务,背后不是一个传统的数据库。

在这里除了存储上的加速之外,我们还提供内存上的扩展,因为是以内存为核心的平台,通过内存扩展,和存储的加速,不仅提高了各方面的性能,同时,通过中间数据放到我们这个系统上,使得Spark节点更加弹性。这大大帮助云服务厂商可以随着客户需求而任意上升或下降调节资源。

最后再看得比较远一点,给大家分享一下我们的愿景。我们小的公司首先是有客户能够落地这个是很重要的,同样重要的是我们希望站在历史正确的一边,站在历史的技术趋势、业界趋势正确的一边。

我们认为,在将来5-10年持久性内存带来的会是一个架构上的变革。这个变革是什么样的变革呢?我们先看现在的架构,大家可能都很熟悉现在的架构基本上计算和存储是分离的,计算会有服务器的群体,有CPU、DRAM,存储基本上会有两层,第一层是SSD为主体的,高性能存储。还有一层容量型存储,现在更多是HDD为导向的。

我们认为这个架构分层在将来5-10年会有改变。最大的改变在计算那层里基于持久性内存会有一个新架构层的出现,叫做MCI,内存融合架构。内存融合架构扩大可用内存到几十甚至上百个T,同时某种程度上会取代于第一层性能级存储。并不是说性能级存储迁移到MCI那层,因为有持续性内存的存在而使得性存储还会存在,存储本身存在于以容量为导向的一层,这一层将会转向SSD为主流介质。而大量的活跃数据直接在内存MCI层得到解决。

我们公司希望成为催化剂,能够成为第一个吃螃蟹的,能够最早在这个领域搭建MCI的系统,希望这个变革发生时,我们能成为领先者之一。

今年是MCI的元年或者说持久性内存的元年,也许明年这个峰会再来参加可能就有整个的环节关于持久性内存。

今年闪存大会(FMS)与去年闪存大会有很多的区别,有好几个环节都是关于持久性内存的,这个技术现在正好是刚刚发生的节点,我们非常幸运在这个事情发生的初期做这个工作。现在已经开始通过硬件、软件得到过去得不到的性能。比如1微秒级的访问时延,过去是百微秒级的访问时延。单点至少达到1000万IOPS,这是一个非常激动人心的未来,非常高兴和大家分享!

主持人:谢谢范总给我们带来非常新的信息,今年算是这个技术第一次在这个会议上报告,明年一定会有更精彩的工作,现在给大家一个机会提问题。

提问:第一个问题我们了解RDMA虽然挺快,有4K或者6K传输时延会有10微秒左右,但是这个介质已经是300纳秒左右,如果是在这种场景下我们用分布式网络连接是不是划算的行为呢?

第二个问题如果我们做了分级的系统,MemVerge是不是已经考虑到这个问题做了一个冷热分级的预测?

(编辑:辽源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读