toshi_456

関東でIT関係の仕事をしている20代のエンジニア。深層学習/自然言語処理/ROSに興味…

toshi_456

関東でIT関係の仕事をしている20代のエンジニア。深層学習/自然言語処理/ROSに興味あり。言語はC++/PythonがメインでたまにCを使います。趣味は旅行/読書/猫。 Twitter: https://twitter.com/tech_nichijo

最近の記事

BLIP-2を使ってみる

様々なVisual and LanguageのタスクでSoTAを達成しているBLIP-2を試してみたのでメモ。 BLIP-2の概要Q-FormerというImage EncoderとLLMの橋渡し役を学習させることで両者のギャップを埋める手法。 Image EncoderとLLMのレイヤーを凍結させることで他のVision and Languageの手法に比べて低コストで学習可能にも関わらず様々なタスクでSoTAを達成。 実装transformersにサンプルコードがあっ

    • PyTorchでVGGを実装する

      最近GPT4等のLLMの登場でディープラーニングが盛り上がっています。 私自身も学習済みのモデルをファインチューニングしたりすることは良くしているのですが、ゼロからモデルを学習させたことがほとんどないため勉強がてらにゼロからモデルを学習させてみようと思います。 まず手始めにシンプルで実装しやすいVGGの論文(Very Deep Convolutional Networks for Large-Scale Image Recognition)を読みながら実装と学習を行ってみ

    BLIP-2を使ってみる