見出し画像

論文自動まとめ 2024年1月4日

これはGPT-4で生成した論文要約です。arXivのRSSの一部を要約しています。

DiffAugment: 拡散ベースのロングテール視覚関係認識 [Diffusion Models]

DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition.

Parul Gupta,Tuan Nguyen, ...,Thanh-Toan Do

trend

従来のVisual Relationship Recognition (VRR) のアプローチでは、広範囲かつ高度に不均衡な分布を持つのトリプレットによる関係の特定が困難であった。

contribution

本論文では、DiffAugmentという手法を提案している。まず、WordNetを使用して言語空間でテールクラスを拡張し、その後、Diffusion Modelsの生成能力を利用して少数派クラスの視覚空間を拡大する。また、各トリプレットの難易度に基づいた新しい難易度重視のDiffusionコンポーネントを提案し、テールクラスの視覚埋め込みの生成における難易度重視のDiffusionの効果を示している。さらに、Diffusionサンプリングのための新しい主語と目的語に基づいたシーディング戦略を提案し、生成された視覚埋め込みの識別能力を向上させている。GQA-LTデータセットでの詳細な実験結果は、Diffusionによる拡張サンプルを使用することで、主語/目的語および関係の平均クラスごとの精度が向上することを示している。


VALD-MD: 医療診断のための潜在的な拡散を利用した視覚的な属性付け [Diffusion Models]

VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics.

Ammar A. Siddiqui(1),Santosh Tirunagari(1), ..., Pakistan)

trend

従来の医療画像の視覚的な属性付けは、病気の組織の検出に焦点を当てており、医師にとっては解釈しやすく説明可能なものではありません。本研究では、潜在的な拡散モデルとドメイン固有の大規模言語モデルを組み合わせた新しい視覚的な属性付け手法を提案しています。この手法では、異常な画像の正常な対応部分を生成するために、2つの画像の差異を利用して診断に関連する画像の部分を特定します。

contribution

本研究の貢献は以下の通りです。 - 医療画像の視覚的な属性付けにおいて、潜在的な拡散モデルと大規模言語モデルを組み合わせた新しい手法を提案したこと。 - 生成された画像と実際の画像の間のFrechet Inception Distance (FID)、Structural Similarity (SSIM)、Multi Scale Structural Similarity Metric (MS-SSIM)の評価を行い、結果を定量的に評価したこと。 - cheXpertデータセットからの実際の例を用いて、ゼロショットの局所的な疾患誘発など、さまざまな潜在的な能力を評価したこと。


ColorizeDiffusion: 参照画像とテキストを用いた調整可能なスケッチのカラー化 [Diffusion Models]

ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text.

Dingkun Yan,Liang Yuan, ...,Suguru Saito

trend

従来のモデルではテキストを使用して条件付け生成を行っていたが、本論文では画像トークンを使用した条件付け生成の可能性を探求している。

contribution

本論文では、参照画像を使用してスケッチ画像をカラー化するための画像ガイドの拡散モデルを提案している。また、事前学習されたCLIP画像エンコーダから異なる画像トークンを使用した2つの変種のモデルを導入し、重み付けテキスト入力を使用して結果を逐次的に調整するための操作方法を提案している。さらに、定性的および定量的な実験、およびユーザースタディを通じてモデルの包括的な評価を行っている。


コードのためのマスクされた言語モデルは、どのような構文能力を統計的に学習するのか? [LLM]

Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code?.

Alejandro Velasco,David N. Palacio, ...,Denys Poshyvanyk

trend

従来のマスクされた言語モデル(MLM)の評価方法には限界があります。この論文では、プログラミング言語の構文ルールを無視することで、モデルの能力を過大評価する可能性があることを指摘しています。

contribution

本論文では、MLMの評価を向上させるために、構文能力を利用した評価手法であるSyntaxEvalを提案しています。SyntaxEvalは、モデルの入力の要素を抽象構文木(AST)に基づいて自動的にマスクする技術です。GitHubのリポジトリからのデータを用いたケーススタディを行い、2つの人気のあるMLMについての結果を示しました。その結果、ノードの種類とMLMの正確性の間には負の因果関係があることが示されました。研究対象となるMLMは、一部の構文能力を予測することに失敗していると結論付けられました。


心理学におけるLLMsのフロンティアを探る:包括的なレビュー。 [LLM]

Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review.

Luoma Ke(1),Song Tong(1), ..., Tsinghua University)

trend

この論文では、大規模言語モデル(LLMs)が心理学の研究においてどのように活用されているかを探求しています。人工知能(AI)や機械学習、特にLLMsの使用は、心理学の研究に新たな方向性をもたらす可能性があります。

contribution

この論文は、LLMsが心理学の研究方法論を進化させる上で重要である一方、技術的および倫理的な課題も存在することを指摘しています。データプライバシーや心理学研究におけるLLMsの倫理的な問題、およびこれらのモデルの限界についての深い理解の必要性などが挙げられます。研究者は、これらの技術を慎重に使用し、倫理基準に従い、感度の高い領域でこれらの技術を展開することの潜在的な影響を考慮するべきです。


S²スキップステップ拡散モデル [Diffusion Models]

S$^{2}$-DMs:Skip-Step Diffusion Models.

Yixuan Wang,Shuangyin Li

trend

GANに匹敵するサンプル品質と、自己回帰モデルの尤度スコアを反映する力を持つ拡散モデルが注目されている。

contribution

本研究では、DDIMsなどの一部の拡散モデルが持つ問題点を解決するため、選択的サンプリングフェーズで省かれた情報を再統合するための新しいトレーニング方法であるS$^{2}$-DMsを提案している。この手法は、サンプル品質を向上させるだけでなく、実装が非常に簡単であり、コードの変更が最小限であり、さまざまなサンプリングアルゴリズムと互換性があるという利点がある。


TREC Clinical Trial Track 2023におけるチームIELABの貢献: ニューラルランカーと大規模言語モデルを用いた臨床試験の検索の向上 [LLM]

Team IELAB at TREC Clinical Trial Track 2023: Enhancing Clinical Trial Retrieval with Neural Rankers and Large Language Models.

Shengyao Zhuang,Bevan Koopman,Guido Zuccon

trend

この論文では、2023年のTREC Clinical Trials Trackにおけるチームielabのアプローチについて説明しています。彼らのアプローチは、ニューラルランカーを使用することで、トレーニングデータの不足問題を解決するために大規模な言語モデルを活用することでした。

contribution

この論文の貢献は、PubmedBERTをベースにした密なランカーと疎なランカーの両方を訓練するために、ChatGPTを使用して合成データセットを生成したことです。さらに、クロスエンコーダリランカーをシステムに統合しました。また、GPT-4をTRECアノテータとして使用して結果を再ランク付けするための判断を提供しました。これにより、強力なPubmedBERTベースのランカーとSOTAの大規模言語モデルを組み合わせたアーキテクチャが実現され、臨床試験の検索に新しいアプローチが示されました。


非滑らかな右辺項を持つサブディフュージョン問題に対する時間ステップの適応 [Diffusion Models]

Time stepping adaptation for subdiffusion problems with non-smooth right-hand sides.

Sebastian Franz,Natalia Kopteva

trend

サブディフュージョン方程式における時間ステップの適応に関する研究

contribution

一般化された残差バリアの提案とその有用性の示唆


PLLaMa: 植物科学のためのオープンソースの大規模言語モデル [LLM]

PLLaMa: An Open-source Large Language Model for Plant Science.

Xianjun Yang,Junfeng Gao, ...,Erik Alexandersson

trend

大規模言語モデル(LLM)は、自然言語の理解と対話において驚異的な能力を示してきました。しかし、植物科学などの高い精度を必要とする特定の領域では、専門知識の不足からその効果が制限されています。

contribution

本論文では、LLaMa-2から進化したオープンソースの言語モデルであるPLLaMaを紹介しています。PLLaMaは、植物科学の1.5百万以上の学術論文から成る包括的なデータベースで強化されています。これにより、PLLaMaは植物科学と農業科学の広範な知識と熟練を持つようになりました。植物と農業に関連する特定のデータセットを用いた初期のテストでは、PLLaMaは植物科学に関連するトピックの理解を大幅に向上させました。さらに、植物科学者、農業エンジニア、植物育種家などの国際パネルを結成し、PLLaMaの学術的な問い合わせへの応答の正確性を検証する役割を果たしています。これにより、PLLaMaの効果的かつ信頼性のある応用が保証されています。


手術リスク予測と予後予測における大規模言語モデルの能力 [LLM]

Large Language Model Capabilities in Perioperative Risk Prediction and Prognostication.

Philip Chung,Christine T Fong, ...,Vikas N O'Reilly-Shah

trend

この研究では、一般的な大規模言語モデルが手術の説明と患者の臨床ノートから得られる情報を使用して、手術のリスク分類や術後の結果予測を行えるかどうかを調査しました。

contribution

この研究の貢献は、いくつかのタスクにおいて、少数のサンプルや連鎖思考のプロンプティングによって予測性能が向上することを示しました。ASA身体状態分類の予測ではF1スコア0.50、ICU入院の予測ではF1スコア0.81、病院死亡の予測ではF1スコア0.86を達成しました。ただし、手術時間や入院期間の予測タスクにおいては、どのプロンプティング戦略でも予測性能が低かったです。現行の大規模言語モデルは、分類タスクにおいて臨床医を手術前のリスク分類に支援することができ、高品質な自然言語の要約と説明を生成することができます。


DiffYOLO: YOLOと拡散モデルを用いたアンチノイズ物体検出 [Diffusion Models]

DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models.

Yichen Liu,Huajian Zhang,Daqing Gao

trend

従来の物体検出モデルは、高品質のデータセットでは優れた結果を出していましたが、低品質のデータセットでは対象物の位置を正確に特定することができませんでした。

contribution

本論文では、DiffYOLOと呼ばれるフレームワークを提案し、YOLOモデルに適用しました。DiffYOLOは、ノイズ除去拡散確率モデルから特徴マップを抽出し、訓練済みモデルを強化することで、高品質のデータセットでYOLOを微調整し、低品質のデータセットでテストすることができます。結果は、このフレームワークがノイズのあるデータセットでの性能を向上させるだけでなく、高品質のテストデータセットでの検出結果も向上させることを示しています。


高速かつ高品質な拡散磁気共鳴画像のための同時q-空間サンプリング最適化と再構築 [Diffusion Models]

Simultaneous q-Space Sampling Optimization and Reconstruction for Fast and High-fidelity Diffusion Magnetic Resonance Imaging.

Jing Yang,Jian Cheng, ...,Shanshan Wang

trend

従来の拡散磁気共鳴画像法(dMRI)では、水の拡散の微細な特性を捉えるために包括的なq-空間サンプリングが必要でしたが、スキャン時間が長くなるという問題がありました。

contribution

本研究では、SSORという新しいフレームワークを提案しています。SSORは、連続的な球面調和関数の表現と再構築ネットワークを使用して、q-空間サンプルのサブセットを同時に最適化します。さらに、l1ノルムと総変動正則化を適用することで、dMRIの特性をq-空間と画像領域の両方で統合します。HCPデータ上での実験結果は、SSORが定量的・定性的に有望な性能を示し、ノイズに対しても頑健性を持つことを示しています。


AID-DTI: 詳細を保持したモデルベースのディープラーニングによる高精度拡散テンソルイメージングの加速 [Diffusion Models]

AID-DTI: Accelerating High-fidelity Diffusion Tensor Imaging with Detail-Preserving Model-based Deep Learning.

Wenxin Fan,Jian Cheng, ...,Shanshan Wang

trend

従来の方法では、拡散テンソルイメージング(DTI)の再構築において、Ricianノイズや詳細の損失が問題となっていました。しかし、ディープラーニングを用いた新しい手法が開発され、DTIパラメータマップの高精細な推定が可能になりました。

contribution

本論文では、AID-DTI(高精度拡散テンソルイメージングの加速)という新しい手法を提案しています。AID-DTIは、Singular Value Decomposition(SVD)ベースの正則化手法を用いて、ネットワークのトレーニング中にノイズを抑制しながら詳細な情報を効果的に捉えることができます。実験結果は、提案手法が従来手法よりも定量的・定性的に優れた結果を示し、DTIパラメータマップの高精細な推定が可能であることを示しています。


WordArt Designer API: モデルスコープ上の大規模言語モデルを用いたユーザー主導の芸術的なタイポグラフィ合成 [LLM]

WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope.

Jun-Yan He,Zhi-Qi Cheng, ...,Jingren Zhou

trend

従来の堅いテンプレートに代わる、ダイナミックで適応性のある芸術的なタイポグラフィ合成のための新しいフレームワークであるWordArt Designer APIが紹介されています。このフレームワークは、大規模な言語モデルを活用してユーザーの入力を理解し、解釈することで、直感的なデザインプロセスを実現しています。

contribution

この論文の貢献は、非専門家向けに芸術的なタイポグラフィを簡素化することです。従来の堅いテンプレートに代わり、ユーザーの美的な好みや機能的な要件をシステムが理解し、ユニークで創造的なタイポグラフィデザインに変換します。評価結果からは、既存のシステムに比べてユーザーの満足度、デザインの柔軟性、創造性が大幅に向上していることが示されています。


De-Hallucinator: LLMベースのコード補完のための反復的なグラウンディング [LLM]

De-Hallucinator: Iterative Grounding for LLM-Based Code Completion.

Aryaz Eghbali,Michael Pradel

trend

公開されているソースコードのデータセットで訓練された大規模な言語モデル(LLM)は、コード補完の分野で新たな最先端技術を確立しています。しかし、これらのモデルはプロジェクト内に既に存在するコードをほとんど認識していないため、既存のAPIを適切に活用することができません。そのため、LLMはしばしば存在しないAPIを作り出したり、既存のコードのバリエーションを生成したりします。

contribution

本論文では、De-HallucinatorというLLMベースのコード補完技術を提案しています。この手法は、適切なAPIリファレンスを取得し、プロンプトのコンテキスト情報を徐々に適切にクエリすることで、モデルの予測結果を裏付けます。この手法は、LLMが望ましい補完に似たコードを予測することが多いが、既存のAPIを正しく参照できないという観察結果を利用しています。


知識グラフ上の対話型質問応答のための大規模言語モデルの意味解析における評価 [LLM]

Evaluating Large Language Models in Semantic Parsing for Conversational Question Answering over Knowledge Graphs.

Phillip Schneider,Manuel Klettner, ...,Florian Matthes

trend

従来の対話型質問応答システムでは、自然言語の入力から構造化されたデータベースクエリを生成するために、意味解析が使用されていました。この論文では、知識グラフ内に格納された事実に関する情報検索の対話型質問応答において、大規模な言語モデルの性能を評価しています。

contribution

この論文の貢献は、このタスクに明示的に事前学習されていない大規模な言語モデルの性能を評価することです。広範なベンチマークデータセットでの一連の実験を通じて、異なるサイズのモデルと異なるプロンプティング技術を比較し、生成された出力の一般的な問題タイプを特定します。結果は、大規模な言語モデルが対話からグラフクエリを生成することができることを示し、特にゼロショット性能が低い小さなモデルに対して、フューショットプロンプティングとファインチューニング技術によって大幅な改善が可能であることを示しています。


大規模言語モデルにおける経済学のアリーナ [LLM]

Economics Arena for Large Language Models.

Shangmin Guo,Haoran Bu, ...,Siting Lu

trend

大規模言語モデル(LLM)は、一般的な目的のエージェントのバックボーンとして広く使用されており、経済学の文献ではLLMがさまざまなタイプの経済ゲームをプレイできると示唆されています。この研究では、静的なベンチマークではLLMの評価の制約があるため、競争ゲームをLLMの評価に取り入れることを提案しています。

contribution

この研究では、競争ゲームを用いてLLMの評価を行い、多人数参加と環境のダイナミクスを取り入れました。ゲームの履歴を変化させることで、ほとんどのLLMは合理的であり、自分の利益を増やす戦略をプレイしますが、Nash均衡(NE)に示されるほど合理的ではありません。また、ゲームの履歴が利用可能な場合、GPT-4などの特定のタイプのLLMはNE戦略により速く収束することがわかりました。さらに、ゲームの履歴が利用可能な場合、特定のタイプのLLMはより頻繁に勝利することがあり、勝率は他のプレイヤーの戦略に対する推論能力を反映していると主張しています。この研究では、LLMの研究コミュニティに対して、合理性、戦略的推論能力、指示に従う能力といったLLMの能力をテストするための経済学のアリーナを提供しています。


大規模言語モデルは削除された概念を再学習する [LLM]

Large Language Models Relearn Removed Concepts.

Michelle Lo,Shay B. Cohen,Fazl Barez

trend

大規模な言語モデルから望ましくない概念を削除するためのニューロンの剪定に関する進展があります。しかし、モデルが編集後に剪定された概念を再習得する能力を持っているかはまだ不明です。

contribution

この研究では、モデルの再学習中に剪定されたニューロンの概念の重要性と類似性を追跡することで、モデルにおける概念の再学習を評価しました。その結果、モデルは高度な概念を早期の層に再配置し、剪定された概念を類似した意味を持つニューロンに再割り当てすることで、剪定後に迅速にパフォーマンスを回復することがわかりました。これにより、モデルは多義的な能力を示し、個々のニューロンに古い概念と新しい概念を組み合わせることができます。


Physio: LLMベースの理学療法アドバイザー [LLM]

Physio: An LLM-Based Physiotherapy Advisor.

Rúben Almeida,Hugo Sousa, ...,Alípio Jorge

trend

最近の言語モデルの能力向上により、それらを実世界のアプリケーションに統合することへの関心が高まっています。しかし、これらのモデルが正当なように見えるが、実際には誤ったテキストを生成するという事実は、いくつかのドメインでの使用を考慮する際に制約となります。医療は、患者の健康を守るためにテキスト生成の信頼性が重要な要件となる典型的な例です。

contribution

本論文では、物理療法のためのチャットベースのアプリケーションであるPhysioを提案しています。Physioは、信頼性のある健康情報源を引用しながら初期診断を行うことができます。さらに、外部の知識データベースを活用して、Physioはリハビリテーションの運動や市販の薬の推奨を行うことができます。これらの機能を組み合わせることで、Physioは言語処理の生成モデルの力を活用しながら、信頼性のある情報源に基づいて応答を行うことができます。


マスクされた言語モデリングを利用した効果的なテキスト拡張手法:イテレーション型マスク埋め込み [LLM]

Iterative Mask Filling: An Effective Text Augmentation Method Using Masked Language Modeling.

Himmet Toprak Kesgin,Mehmet Fatih Amasyali

trend

従来のデータ拡張手法は、画像処理においては広く研究されてきましたが、自然言語処理(NLP)においてはあまり研究されていませんでした。

contribution

本論文では、BERTモデルのFill-Mask機能を利用した新しいテキスト拡張手法を提案しています。この手法では、文中の単語を順次マスクし、言語モデルの予測結果で置き換えることで、テキストを拡張します。様々なNLPタスクでこの手法を評価し、多くの場合に効果があることを示しました。特にトピック分類のデータセットにおいて、提案手法は性能を大幅に向上させることが実験結果から示されました。


DGDNN: 株式の動向予測のための分離されたグラフ拡散ニューラルネットワーク [Diffusion Models]

DGDNN: Decoupled Graph Diffusion Neural Network for Stock Movement Prediction.

Zinuo You,Zijian Shi, ...,Yan Ge

trend

従来の株式の動向予測は、株価に影響を与える株式間の相互依存関係や階層的な株式内の特徴を捉えることが難しいとされてきました。最近では、グラフニューラルネットワークを用いて、複数の株式をグラフ構造のデータとして扱うことで、この問題において優れた性能を達成しています。しかし、これらの手法の多くは、静的な株式グラフを構築するために人工的に定義された要素に依存しており、急速に変化する株式間の本質的な相互依存関係を捉えることができません。さらに、これらの手法はしばしば株式の階層的な特徴を無視し、内部の特徴情報を失ってしまいます。

contribution

本研究では、これらの問題に対処するために、専門知識を必要とせずに実装された新しいグラフ学習手法を提案しています。まず、我々の手法は、信号処理の観点からエントロピー駆動のエッジ生成により、動的な株式グラフを自動的に構築します。次に、構築された株式グラフ上で一般化されたグラフ拡散プロセスを用いて、株式間のタスク最適な依存関係をさらに学習します。最後に、独立した表現学習スキームを採用して、階層的な株式内の特徴を捉えます。実験結果は、実世界のデータセットにおいて、既存のベースライン手法に比べて大幅な改善を示しています。さらに、削除実験と感度実験は、提案手法が時系列変動する株式間および株式内のダイナミクスをモデリングする上での効果を示しています。


言語モデルのためのビジョンチェックアップ [LLM]

A Vision Check-up for Language Models.

Pratyusha Sharma,Tamar Rott Shaham, ...,Antonio Torralba

trend

言語モデルが視覚的な世界について学ぶことの重要性が注目されている。

contribution

この論文は、大規模言語モデルが文字列の関係性をモデル化することで視覚的な概念を生成・認識する能力を持つことを示し、テキストモデルを用いた視覚的表現学習システムの訓練方法を提案している。さらに、テキストモデルを用いた生成画像を利用した自己教師あり視覚的表現学習の実験結果から、言語モデルだけで自然画像の意味的評価が可能なビジョンモデルの訓練の可能性を示している。

この記事が気に入ったらサポートをしてみませんか?