在了解通用人工智能(GenAI)架构之前,做为架构师的我们,可以从现代数据湖参考架构中借鉴到通用的 10 项重要功能,包括每个功能的相关工具与库,这可以称为AI开发者工具箱的十件武器。
现代数据湖,有时也称为数据湖屋,其一半是数据湖,一半是基于开放表格式规范 (OTF) 的数据仓库。这两者都建立在现代级对象存储上。
接下来,让我们深入思考了组织如何构建 AI 数据基础设施,以支持所有 AI/ML 需求,而不仅仅是训练集、验证集和测试集的原始存储。换句话说,它应该包含训练大型语言模型、MLOps 工具、分布式训练等所需的计算能力。
本文尝试介绍如何使用现代数据湖参考架构来支持我们的 AI/ML需求。下图展示了现代数据湖参考架构,其中重点介绍了生成 AI 所需的功能。
来源:现代数据湖中的 AI/ML
现在我们先讨论一下构建现代数据湖所需的供应商和工具。在这 10 件武器列表中,每个都是支持生成式 AI 所需的一项重要能力。
企业数据湖建立在对象存储之上。它不是以前那种使用廉价和深度存档用例的老式基于设备的对象存储,而是现代、高性能、软件定义和 Kubernetes 原生对象存储,它们是现代 GenAI 堆栈的基石。
它们可以作为服务(AWS、Google Cloud Patform (GCP)、Microsoft Azure)或本地或混合/两者使用,例如 MinIO。
这些数据湖必须支持流式工作负载,必须具有高效的加密和纠错删码,需要将元数据与对象一起原子存储,并支持 Lambda 计算等技术。
有鉴于这些现代替代方案是云原生的,它们将与其他云原生技术的整个堆栈集成,从防火墙到可观察性再到用户和访问管理,做到开箱即用。
Dremio Sonar(数据仓库处理引擎,https://docs.dremio.com/current/sonar/)
Dremio Arctic(数据仓库目录,https://docs.dremio.com/cloud/arctic/)
Open Data Lakehouse | Starburst(目录和处理引擎,https://www.starburst.io/solutions/open-data-lakehouse/)
MLRun(Iguazio,被麦肯锡收购。https://www.mlrun.org/)
MLflow(Databricks,https://mlflow.org/)
Kubeflow(谷歌,https://www.kubeflow.org/)
PyTorch(https://pytorch.org/)
TensorFlow(https://www.tensorflow.org/)
DeepSpeed(来自微软,https://www.deepspeed.ai/)
Horovod(来自 Uber,https://horovod.ai/)
Ray(来自 Anyscale,https://www.ray.io/)
Spark PyTorch 分发器(来自 Databricks,https://www.databricks.com/blog/2023/04/20/pytorch-databricks-introducing-spark-pytorch-distributor.html)
Spark TensorFlow 分发器(来自 Databricks,https://docs.databricks.com/en/_extras/notebooks/source/deep-learning/spark-tensorflow-distributor.html)
<h2 style="outline-style: initial; outline-width: 0px; font-weight: 400; font-size: 16px; max-width: 100%; color: rgba(0, 0, 0, 0.9); font-family: system-ui, -apple-system, " system-ui",="" "helvetica="" neue",="" "pingfang="" sc",="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" arial,="" sans-serif;="" letter-spacing:="" 0.544px;="" text-align:="" justify;="" overflow-wrap:="" break-word=&qu
Keyword: 企业人工智能服务
Categories: News