最近の記事

Google ColabでQLoRA したLlama-3をMLXモデル(macOS)へ変換する

1. モチベーションMLXを使いmacOS上で数BのLLMを十数token/sec程度の速度(M2 16GB MacbookAir)で動作させることができた。合わせてLoRaによるFine-tuningをさせてみたが、1000件程度の学習データをLlama-3-8B-InstructionにQLoRAでFine-tuningすると1時間程度の時間が必要になる。短時間でのチューニングを実現するため、学習はGPU環境(Google Colaboratory)で実行し、完成したモデ

    Google ColabでQLoRA したLlama-3をMLXモデル(macOS)へ変換する