見出し画像

【2024年】論文輪読会まとめ【NABLAS】

こんにちは!NABLASです!
NABLASでは世界トップクラスのAI研究開発拠点となることを目指し、ディープラーニング技術に強みのあるリサーチャーやソフトウェア開発の経験が豊富なエンジニアなどが集まり、日々研究開発を行っています。
業務中にキャッチアップした、最新のAI技術に関する論文の中で社内全体に共有したいものをピックアップし、隔週で論文輪読会を行なっています。これまでXにて輪読会で取り上げた論文や資料の一部をお伝えしていたのですが、全てをお伝えするべく春頃に行われた輪読会から使用したスライドをslideshareにて公開しております。

今回のnoteは2024年に行われた輪読会で登場する論文と、弊社メンバーが作成した資料のスライドのまとめ記事となっています。輪読会が行われる度に最新のものを先頭に追加してまいります。追加タイミングに関してはXにてお知らせしておりますので、Xも合わせてご確認ください。


Recipe Generation:Retrieval from Videos - Multi-Modal RecipeRag

2024.09.18
ユーザークエリに基づいて、動画データベースから関連するテキストデータと画像データを検索し、それらの情報を組み合わせて、料理のレシピの手順と必要な材料を生成するRecipeRagについて紹介しています。


Build your own RAG system

2024.08.28
LLMがより正確かつ関連性の高い回答を生成できるよう、独自にLLMにデータを組み込む「RAG system」を構築する方法について解説しています。
デモはこちらからどうぞ。https://github.com/endrol/RagStudy


History of LLaVA

2024.08.14
画像エンコーダとLLMを組み合わせることで、画像とテキストの処理を行う、大規模マルチモーダルモデルのLLaVAとその後続モデル(LLaVA-1.5〜LLaVA-OneVision)について紹介しています。


AnyGPT:Unified Multimodal LLM with Discrete Sequence Modeling

2024.07.31
音声、テキスト、画像、音楽など、あらゆるモダリティを離散表現によって統一的に処理する新たなマルチモーダルLLM、「AnyGPT」について説明しています。 このモデルは、マルチモーダル特徴抽出器を追加することなく、あらゆるモダリティのコンテンツを理解、推論し生成することができます。


TransNeXt: Robust Foveal Visual Perception for Vision Transformers

2024.07.02
TransNeXtについて紹介しています。TransNeXtは、人間の視覚に似た視覚的モデリング手法である大域性と局所性を併せ持つ注意機構を導入することにより、高精度な物体認識を実現しています。


XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model

2024.06.19
最新の音声表現技術に関する紹介です。Neural Codecsを使った音声表現を採用し、GPT2ベースのデコーダとPerceiver構造のスピーカーエンコーダによって、より高品質な音声生成が可能となりました。英語においては優れた性能を持っていますが、一部言語の文字認識精度に課題があります。


Hallucination of LLMs

2024.06.05
大規模言語モデル(LLM)におけるハルシネーションを軽減する方法について紹介しています。主な軽減方法は、LLMを使用して検証質問を生成し、内容の真偽を確認すること、他のLLMと対話させることで不整合箇所を発見することなどが挙げられています。


Faster Python Interpreter

2024.05.23
Pythonの高速化に寄与される論文を2本紹介しています。「Multi-Level Quickening: Ten Years Later」ではインタプリタの性能向上について、「Copy-and-Patch Compilation」ではコンパイル高速化のための技術についての論文です。


Octo: An Open-Source Generalist Robot Policy

2024.05.08
Octoはロボット基盤モデルであり、transformerベースのDiffusion Policyを用いています。Octoの設計理念をはじめ、技術的特徴、応用例、および開発者コミュニティへの参加方法について紹介しています。


LLM Agents

2024.04.25
単純な応答だけでなく、複雑な課題に対応できる柔軟性を持つLLM Agents。
高度な自然言語処理能力を持ち、人間との自然な対話をはじめ、あらゆるタスクを実行することができます。下の資料では主要コンポーネントのPlanning、Memory、Tool Useについて解説しています。


Mamba: Linear-Time Sequence Modeling with Selective State Spaces

2024.04.10
選択的状態空間モデル(Selective SSM:Selective State Space Model)を用いることで、必要最小限の情報に着目し計算効率の向上を達成するMambaについて紹介しています。シーケンス長が増すにつれて推論コストが線形に増大するため、Transformerが苦手としていた長尺の系列データを扱うことができます。


Object Recognition as Next Token Prediction

2024.03.27
言語モデルを用いた物体認識に関する論文の紹介です。率的にOpen-endedなクラス集合に対して物体認識を行える手法について述べています。


2024年にNABLASで開催された論文輪読会の紹介でした。最新AI技術や生成AIに興味のある方はぜひコーポレートサイトもご覧ください。
インターンをはじめ、リサーチャー、エンジニア、ビジネス職など、幅広く募集もしております。オンラインでカジュアルに私たちとお話ししてみませんか?ぜひ上記コーポレートサイトWantedlyLinkedinからご連絡くださいませ!