鼎盛公司上下分-微信【ds012044】_市场资讯_资讯

鼎盛公司上下分-微信【ds012044】

2023-07-15 15:10 浏览:5

“大模型时代，数据决定AI智能的高度。作为数据的载体，数据存储成为AI大模型的关键基础设施。”7月14日，华为数据存储产品线总裁周跃峰在发布会上说道。

当天，华为发布大模型时代AI存储新品，为基础模型训练、行业模型训练，细分场景模型训练推理提供存储最优解，释放AI新动能。

周跃峰告诉观察者网等媒体，现在AI大模型非常热门，但企业实施AI大模型的过程是一个复杂的系统过程，会面临很多挑战。具体来讲，企业在开发及实施大模型应用过程中，面临四大挑战：

首先，数据准备时间长，数据来源分散，归集慢，预处理百TB数据需10天左右；其次，多模态大模型以海量文本、图片为训练集，当前海量小文件的加载速度不足100MB/s，训练集加载效率低；第三，大模型参数频繁调优，训练平台不稳定，平均约2天出现一次训练中断，需要Checkpoint机制恢复训练，故障恢复耗时超过一天；最后，大模型实施门槛高，系统搭建繁杂，资源调度难，GPU资源利用率通常不到40%。

华为数据存储产品线总裁周跃峰

周跃峰认为，目前大模型算力成本约占整个成本的25%，而数据清洗、预处理等工作，在不算数据存储硬件的情况下，占到成本的22%。从这个角度看，数据机器存储过程，在大模型时代越来越重要。这不仅仅是简单的数据量变大，而且数据的处理过程，以及过程中对于硬件性能的要求越来越高。随着大模型出现，数据存储和处理相关领域未来会越来越有前景。

为顺应大模型时代AI发展趋势，华为针对不同行业、不同场景大模型应用，推出OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体机。

OceanStor A310深度学习数据湖存储，面向基础/行业大模型数据湖场景，实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理。OceanStor A310单框5U支持业界最高的400GB/s带宽以及1200万IOPS的最高性能，可线性扩展至4096节点，实现多协议无损互通。全局文件系统GFS实现跨地域智能数据编织，简化数据归集流程；通过近存计算实现近数据预处理，减少数据搬移，预处理效率提升30 %。

FusionCube A3000训/推超融合一体机，面向行业大模型训练/推理场景，针对百亿级模型应用，集成OceanStor A300高性能存储节点、训/推节点、交换设备、AI平台软件与管理运维软件，为大模型伙伴提供拎包入住式的部署体验，实现一站式交付。开箱即用，2小时内即可完成部署。训/推节点与存储节点均可独立水平扩展，以匹配不同规模的模型需求。同时FusionCube A3000通过高性能容器实现多个模型训练推理任务共享GPU，将资源利用率从40%提升到70%以上。FusionCube A3000支持两种灵活的商业模式，包括华为昇腾一站式方案，以及开放计算、网络、AI平台软件的第三方伙伴一站式方案。

“数据是很重要的，堪比人类发展历史上的文字。”对于AI大模型的数据建设现状，周跃峰认为，目前国内算力较多但存力较少，很多高价值的信息都没有被记录下来。

“目前ChatGPT英文大模型训练效率高于中文的核心原因，就在于英文资料的数字化记录远远多于中文，人工智能产业要得到高速的发展，一定要重视数据和信息的数字化的记录。”他表示。

周跃峰还提到了未来AI大模型在数据建设方面亟待突破的三个要点：对原始数据进行预处理实现“数据更好用”、数据存储与GPU更流畅地相配合、数据安全。

华为分布式存储领域副总裁韩振兴在会上表示，在算力和存力的建设过程中，一定是有一个最佳的算存比，并不是靠推算力就能把一个AI推得非常好。他认为，存力建设的落后可能加剧算力闲置，造成资源浪费；相反，高质量的存力将有助于提升AI训练。

打赏