Amazon EKS で構築する生成 AI モデルのワークフロー

標準化のための多面的な投資

  • クラスターの管理コストが1/3に

    • 1人の管理者が運用できるk8sクラスターが10→30に

  • CI/CDの整備

    • オリジナルのCI/CDから、ArgoCDとGitOpsに移行

    • 汎用的な仕組みにより、生成AIのワークロードにも対応

  • 開発者体験の向上

    • 単一のポータルでシンプルに開発と運用ができるように整備

k8sにおける機械学習

  • 課題

    • 依存関係の管理

    • リソース準備のスケーリング

    • インテグレーション

    • セキュリティ・コンプライアンス

    • Time to Marketの短縮

→ コンテナを使うことによって一貫性が保たれる

k8sを選ぶ理由

  • スケーラビリティ

  • リソース使用率の改善

  • 組織における標準化

  • オープンソースコミュニティ

→ k8s環境を活用してTime to Marketを短縮

生成AIのためのEKS

  • 生成AIモデルの推論はWebアプリケーションと同じような課題が出てくる

  • 大規模のワークロードの場合9割が推論のコストになっている

Karpenter

  • 既存のEKSで運用が複雑すぎる声があり作られた

    • 機械学習のワークロードにマッチしている

生成AIのためのEKSワークフロー構築

  • k8sに組み込みのML APIがない

  • データサイエンティストはk8sの専門家ではない

  • MLOpsのベストプラクティスに追随

  • EKSのMLオーケストレーションPF

→ JARK stack on EKS

まとめ

  • Time to Marketの加速

    • 基盤の再使用及び拡張

  • コスト最適化

    • OSSやKarpenterの活用

  • スケーラビリティ

    • EKSのコントロールプレーン

    • ノードのオートスケーリング

  • JARK stack

    • MLスタックの構築支援するプロジェクト

この記事が気に入ったらサポートをしてみませんか?