見出し画像

AI ニュース 新着論文 2024.01.12


Graph Learning-based Fleet Scheduling for Urban Air Mobility under Operational Constraints, Varying Demand & Uncertainties

運用制約、需要の変動、不確実性を考慮した都市空中移動のためのグラフ学習ベースのフリートスケジューリング

  • Steve Paul , Jhoel Witter , Souma Chowdhury


  • この論文は、都市内で飛行する小型電動航空機の群れ(フリート)を効率的に運用するための新しい方法を提案しています。これらの航空機は、複数の飛行場(バーティポート)を使って人々を目的地に運びます。研究者たちは、航空機がどの飛行場に行くべきかをリアルタイムで決めるための、グラフ強化学習という技術を使ったコンピュータープログラムを開発しました。このプログラムは、乗客の需要、飛行場の容量、飛行安全規則、予期せぬ遅れや航空機の故障などの複雑な問題を考慮して、最適なスケジュールを作成します。実験では、この方法が他の手法よりも優れており、特に利益を最大化する点で効果的であることが示されました。また、計算速度も非常に速いことが確認されています。

  • 公開:2024-01-09


The inherent goodness of well educated intelligence

よく教育された知性の固有の善良さ

  • Michael E. Glinsky , Sharon Sievert


  • この論文は、知的存在がどのようなものかを探求しています。それは生物的なものでも、コンピューター上の人工的なものでもかまいません。論文は、多くの小さな部分が相互作用して全体を形成するシステムに焦点を当てており、そのようなシステムを特徴づけ、制御する能力を持つ存在を「知的」と見なしています。知的存在は、個々の行動が集団全体にどのような影響を与えるかを理解しており、短期的な利益よりも長期的な結果を重視します。論文は、集団を効果的に制御するためには、過度な制約(粘性)を加えるのではなく、知的存在が集団の振る舞いを最適な状態に導くことが重要だと主張しています。教育された知性は善であり、短期的な利益を追求する訓練された愚かさは悪であると述べています。特に経済や社会の集団における制御と最適化についての考察がなされています。

  • 公開:2024-01-09


Sample-and-Bound for Non-Convex Optimization

非凸最適化のためのサンプルとバウンド

  • Yaoguang Zhai , Zhizhen Qin , Sicun Gao


  • この文章は、複雑な数学的問題を解決するための新しい方法について説明しています。通常、非常に難しい問題(非凸関数の最適化問題)を解くためには、計算が多くなりすぎることが問題です。この新しい方法では、モンテカルロ木探索(MCTS)という技術を使って、計算を効率的に行います。MCTSは、ゲームのAIなどで使われる技術で、可能性のある選択肢をランダムに試しながら、最も良い結果をもたらす選択肢に焦点を当てます。この方法では、問題の解を探す際に、数値の不確実性を考慮し、有望な領域に集中することで、計算をより早く、正確に行うことができます。このアプローチは、特に多くの変数を持つ複雑な問題に対して有効であり、実際にいくつかの難しい問題で試して、良い結果が得られたことが示されています。

  • 公開:2024-01-09


How predictable is language model benchmark performance?

言語モデルのベンチマークの性能はどれくらい予測可能ですか?

  • David Owen


  • 研究者たちは、11種類の最新の大規模言語モデルが、さまざまな計算能力でどのように機能するかを調べました。BIG-Benchという、多くの異なるタスクでモデルを評価するデータセットを使い、モデルの性能が計算能力によってどれくらい予測できるかを見ました。結果として、全体の平均性能は計算能力に基づいてかなり正確に予測できることがわかりました。しかし、個々のタスクの性能を予測するのは難しく、平均よりも誤差が大きくなりました。それでも、個々のタスクの性能は完全には予測できないものの、偶然に頼るよりは予測可能であることが示されました。この研究は、AIの能力を予測するために計算能力を使うことが有望であることを示していますが、特定のタスクに対する予測はまだ改善の余地があることを示しています。

  • 公開:2024-01-09


A novel framework for generalization of deep hidden physics models

深層物理モデルの一般化のための新しい枠組み

  • Vijay Kag , Birupaksha Pal


  • この文章は、複雑な物理的な現象をモデル化する際の課題と、それに対する新しいアプローチについて説明しています。実際の世界の物理現象は非常に複雑で、すべてを完全に理解することは難しいか、あるいは計算資源の制限のために簡略化されたモデルを使う必要があります。最近の進歩では、データと物理法則を組み合わせた「グレーボックスモデリング」という手法が使われています。しかし、モデルが実際の状況にうまく適応できるかどうか(一般化可能性)は大きな問題です。なぜなら、環境や条件が少し変わるだけでモデルを再学習する必要があり、それが経済的に問題になるからです。この研究では、環境の変化に強い新しいタイプのモデルを提案し、それが物理現象を理解するのに役立つことを示しています。

  • 公開:2024-01-09


Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks

ジェネレーティブ対抗ネットワークを通じたアンテホック説明可能モデルの進化

  • Tanmay Garg , Deepika Vemuri , Vineeth N Balasubramanian


  • この研究では、コンピュータが画像を分類する際に、どのようにしてその判断をしているかを人間が理解しやすくする新しい方法を提案しています。コンピュータは、画像の特徴を学習して識別する「分類器」というプログラムを使いますが、この研究では分類器に「説明生成器」という部分を追加しています。この説明生成器は、分類器が画像をどのような視覚的特徴(例えば物の形や色)に基づいて分類しているかを抽出し、人間が理解しやすい形で提示します。また、敵対的学習という技術を使って、このプロセスを改善し、コンピュータがより正確に画像を分類できるようにしています。実験では、この方法が効果的であることが示されており、コンピュータが画像を分類する際の「考え方」を人間が理解しやすくなっています。

  • 公開:2024-01-09


Applying Large Language Models API to Issue Classification Problem

大規模言語モデルAPIを問題分類問題に適用する

  • Gabriel Aracena , Kyle Luster , Fabio Santos , Igor Steinmacher , Marco A. Gerosa


  • ソフトウェア開発では、問題をどの順番で解決するかを決めることが大切です。通常、この作業は手動で行われますが、時間がかかり、大きなプロジェクトには適していません。そこで、多くのプロジェクトは自動化された方法を使っていますが、これにはたくさんのデータが必要です。この研究では、少ないデータでも問題を正確に優先順位付けできる新しい自動化方法を提案しています。この方法はGPTという技術を使い、少ない例で学習することができます。結果として、問題を93.2%の精度で識別し、95%の確率で重要なものを見逃さず、89.3%のF1スコア(精度と再現率のバランスを示す指標)を達成しました。これにより、ソフトウェア開発の効率が向上します。

  • 公開:2024-01-09


Agent Alignment in Evolving Social Norms

進化する社会規範におけるエージェントの整合性

  • Shimin Li , Tianxiang Sun , Xipeng Qiu


  • 大規模言語モデル(LLM)を使ったAIエージェントは、私たちの仕事や生活に広く使われていますが、これらのAIが人間の価値観に合うように調整することが重要です。現在の方法では、人が直接介入してAIを調整していますが、AIは自分で学習して進化するため、この方法だけでは不十分です。そこで提案されたのが「EvolutionaryAgent」という新しいシステムです。これは、AIが社会の規範に合わせて自然に進化するように設計されており、適応できるAIは生き残り、そうでないものは淘汰されます。実験では、このシステムがタスクの能力を保ちつつ、変化する社会規範に適応する能力があることが示されました。このアプローチは、様々なソースのLLMで効果があることも証明されています。

  • 公開:2024-01-09


Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding

買い物に行こう(LGS)- ビジュアルコンセプト理解のためのWebスケール画像テキストデータセット

  • Yatong Bai , Utsav Garg , Apaar Shanker , Haoming Zhang , Samyak Parajuli , Erhan Bas , Isidora Filipovic , Amelia N. Chu , Eugenia D Fomitcheva , Elliot Branson , Aerin Kim , Somayeh Sojoudi , Kyunghyun Cho


  • 画像分類やキャプション生成などのタスクを行う人工知能(AI)は、多くの画像とそれに関する説明が書かれたデータが必要です。しかし、このようなデータを集めるのは時間がかかり、研究者や開発者は使えるデータが限られてしまいます。そこで、研究者たちはオンラインショッピングサイトから高品質で役立つデータを集める新しい方法を見つけました。彼らが作った「Let's Go Shopping (LGS)」というデータセットには、1500万組の画像とそれに関する説明が含まれています。このデータを使うと、AIは商品の画像をより正確に理解し、より良い説明を生成することができるようになります。これにより、オンラインショッピングの体験が向上する可能性があります。

  • 公開:2024-01-09


MERA: A Comprehensive LLM Evaluation in Russian

MERA:ロシア語での包括的なLLM評価

  • Alena Fenogenova , Artem Chervyakov , Nikita Martynov , Anastasia Kozlova , Maria Tikhonova , Albina Akhmetgareeva , Anton Emelyanov , Denis Shevelev , Pavel Lebedev , Leonid Sinev , Ulyana Isaeva , Katerina Kolomeytseva , Daniil Moskovskiy , Elizaveta Goncharova , Nikita Savushkin , Polina Mikhailova , Denis Dimitrov , Alexander Panchenko , Sergei Markov


  • 最近のAI研究で特に注目されているのは、言語を理解し処理するAIモデルの進化です。これらのモデルは、より大きく複雑になるにつれて、さまざまなタスクをより上手にこなせるようになっています。しかし、これらのAIの能力や限界、そしてそれが引き起こすかもしれない問題は、まだ完全には理解されていません。この問題に取り組むため、研究者たちはロシア語のAIモデルを評価する新しい基準「MERA」を開発しました。これは、AIがどれだけ上手に言語を扱えるかを測るためのテストで、11の異なるスキルを評価します。このテストは、AIがどのように学習しているかを外部からは見えないようにしながら行われます。研究者たちは、この基準を使ってAIモデルを評価し、結果を公開することで、AIの進歩を促し、社会的な問題にも対応しようとしています。現在のところ、AIはまだ人間のレベルには達していないことがわかっています。

  • 公開:2024-01-09


Exploring Prompt-Based Methods for Zero-Shot Hypernym Prediction with Large Language Models

大規模言語モデルを用いたゼロショット上位語予測のためのプロンプトベース手法の探索

  • Mikhail Tikhomirov , Natalia Loukachevitch


  • この研究では、人工知能が文章を読んで、単語がどんな意味を持つかを予測する新しい方法を試しています。この方法は、大きな言語モデルというプログラムを使って、文章の中で単語がどのように使われているかを分析します。実験では、このプログラムに特定の質問をすることで、単語の意味をより正確に予測できることがわかりました。また、単語が同じ音で異なる意味を持つ場合(同音異義語)にも対応できるように改善しました。この方法を使うと、単語のより高度な意味を理解することができ、実際のテストでは非常に良い結果を出しました(MAP = 0.8)。これにより、人工知能が文章を読む能力が向上し、より複雑な言語の理解が可能になるかもしれません。

  • 公開:2024-01-09


Optimal Survival Trees: A Dynamic Programming Approach

最適生存木:動的プログラミングアプローチ

  • Tim Huisman , Jacobus G. M. van der Linden , Emir Demirović


  • 生存分析は、人がどれくらい生きるかや、特定のイベントが起こる時期を予測する研究方法です。生存木という技術は、人々をグループに分けて、それぞれのグループで起こる出来事のパターンを予測するためのわかりやすいモデルを作ります。この研究では、最適な生存木を作るための新しい計算方法を開発しました。この方法は、以前の方法よりも計算が速く、実際のデータに対しても良い結果を出すことが実験で示されました。つまり、この新しい方法は、人々の生存に関する予測をより迅速かつ正確に行うことができるということです。

  • 公開:2024-01-09


Combining Embedding-Based and Semantic-Based Models for Post-hoc Explanations in Recommender Systems

レコメンダーシステムにおける事後説明のための埋め込みベースと意味ベースモデルの組み合わせ

  • Ngoc Luyen Le , Marie-Hélène Abel , Philippe Gouspillou


  • レコメンダーシステムは、オンラインショッピングなどでユーザーに合った商品を提案する技術です。しかし、これまでのシステムはなぜその商品を推薦したのかを説明するのが難しいものでした。この記事では、商品の推薦とその理由を説明する新しい方法を紹介しています。この方法では、商品やユーザーの特徴を数学的に表す「埋め込みベースのモデル」と、物事の意味や関係を理解する「セマンティックベースのモデル」を組み合わせています。これにより、ユーザーに対して推薦の理由を分かりやすく説明し、信頼や満足感を高めることができるとしています。特にオンラインショッピングの分野で、この技術がより多く使われるようになるかもしれません。

  • 公開:2024-01-09


A Survey on Efficient Federated Learning Methods for Foundation Model Training

ファウンデーションモデルトレーニングの効率的なフェデレーテッドラーニング方法に関する調査

  • Herbert Woisetschläger , Alexander Isenko , Shiqiang Wang , Ruben Mayer , Hans-Arno Jacobsen


  • Federated Learning(FL)は、複数のデバイスがプライバシーを守りながら共同で機械学習モデルを学習する技術です。最近、大きなモデルであるトランスフォーマーが注目されていますが、FLでは小さいモデルが主に使われています。FLでは、データをやり取りする通信と計算の時間が問題になることがあります。このため、新しい研究では、学習時間を短くし、デバイス間のデータのやり取りを減らす方法に焦点を当てています。また、現在よく使われているFLの技術を概観し、将来の研究の方向性についても考察しています。これらの効果は、FLをより効率的にし、大きなモデルでも使えるようにすることを目指しています。

  • 公開:2024-01-09


MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

MagicVideo-V2:マルチステージの高美観ビデオ生成

  • Weimin Wang , Jiawei Liu , Zhijie Lin , Jiangqiao Yan , Shuo Chen , Chetwin Low , Tuyen Hoang , Jie Wu , Jun Hao Liew , Hanshu Yan , Daquan Zhou , Jiashi Feng


  • MagicVideo-V2は、文章から直接ビデオを作成する技術です。このシステムは、文章を画像に変換し、動きを加えてビデオにする機能、参照された画像を使う機能、そしてビデオの各フレームを滑らかにつなげる機能を持っています。これにより、MagicVideo-V2は非常にリアルで滑らかな動きの高画質ビデオを作り出すことができます。実際に多くの人に評価してもらった結果、RunwayやPika 1.0など他の文章からビデオを生成するシステムよりも優れていることが証明されました。

  • 公開:2024-01-09


Image classification network enhancement methods based on knowledge injection

知識注入に基づく画像分類ネットワークの強化方法

  • Yishuang Tian , Ning Wang , Liang Zhang


  • 現在のディープニューラルネットワーク(DNN)は、画像とそれに対応するラベルを使って学習するが、なぜその結果になったのかを説明するのが難しい。また、これらのアルゴリズムは人間の知識を活用していないため、人間の理解とは異なる結果を出すことがある。この問題を解決するために、人間の認知モデルに基づいた新しい学習方法が提案されている。この方法では、人間の知識を組み込んだデータセットを使ってDNNを学習させることで、ネットワークの判断理由をより理解しやすくし、分類タスクの性能を向上させる。実験では、この新しいアルゴリズムがネットワークの内部情報を効果的に説明し、解釈可能性を高めることが示されている。

  • 公開:2024-01-09


Empirical Analysis of Anomaly Detection on Hyperspectral Imaging Using Dimension Reduction Methods

次元削減手法を用いた高次元分光画像の異常検知の実証的分析

  • Dongeon Kim , YeongHyeon Park


  • ハイパースペクトルイメージング(HSI)は、目に見えない紫外線や赤外線を含む光の情報を捉える技術です。これを使って、製品に混入した異物を見つけ出すことができます。ただし、HSIは多くの画像チャンネルを持っているため、データを扱いやすくするためには、情報を減らす(次元削減)手法が必要です。しかし、これらの手法には、画像を取得するのに時間がかかる、重要な情報を見落とす可能性があるという問題があります。この研究では、HSIを使った新しい異物検出方法を提案しており、特徴を選び出すことで、より効率的に、重要な情報を見逃さずに済むようにしています。実験では、この方法が従来の手法よりも約7倍速く動作し、異物検出の精度を保ちながら、より速く結果を得られることを示しています。

  • 公開:2024-01-09


i-Rebalance: Personalized Vehicle Repositioning for Supply Demand Balance

i-Rebalance: 供給と需要のバランスのための個人向け車両再配置

  • Haoyang Chen , Peiyan Sun , Qiyuan Song , Wanyuan Wang , Weiwei Wu , Wencan Zhang , Guanyu Gao , Yan Lyu


  • ライドヘイリングサービスでは、タクシーや配車の需要と供給のバランスを取ることが大きな課題です。従来の方法では、ドライバー全員が同じように動くと仮定して、どこに移動するかを決めていましたが、実際にはドライバーはそれぞれ異なる好みを持っています。この論文では、ドライバーの好みを考慮した新しい方法「i-Rebalance」を提案しています。この方法は、深層強化学習という技術を使って、ドライバーが再配置の提案を受け入れるかどうかを予測し、それに基づいて個々のドライバーに合わせた移動提案をします。実際のデータを使ったテストでは、この方法がドライバーの受け入れ率を約38%向上させ、収入を約10%増やす効果があることがわかりました。

  • 公開:2024-01-09


Estimating Text Similarity based on Semantic Concept Embeddings

意味概念埋め込みに基づいたテキスト類似度の推定

  • Tim vor der Brück , Marc Pouly


  • Word2Vecは、単語の意味を数値の形で表現する技術です。これにより、コンピューターが単語の意味を理解し、類似した単語を見つけることができます。しかし、Word2Vecは単語の表面的な使い方からしか情報を得られないため、人間の複雑な思考や、意味が多岐にわたる単語をうまく扱えないことがあります。この問題を解決するために、研究者たちは「意味概念埋め込み」という新しい方法を提案しました。これは、単語の意味をより深く理解するためのものです。実験では、この新しい方法を使ってマーケティングで特定の顧客グループを予測すると、予測の正確さが向上することがわかりました。これは「同期化単語移動距離」という新しい技術を使って測定されました。

  • 公開:2024-01-09


Optimal Transcoding Resolution Prediction for Efficient Per-Title Bitrate Ladder Estimation

効率的なタイトルごとのビットレートラダー推定のための最適なトランスコーディング解像度予測

  • Jinhai Yang , Mengxi Guo , Shijie Zhao , Junlin Li , Li Zhang


  • アダプティブ・ビデオ・ストリーミングとは、インターネットの速度が変わる環境でも、動画をスムーズに見られるようにする技術です。この技術では、動画の画質を調整するために「ビットレート・ラダー」というものを使います。ビットレート・ラダーは、異なる画質の動画をいくつか用意しておき、ユーザーのネットワーク状況に合わせて最適なものを選ぶための指標です。しかし、これを効率的に作るには、動画ごとに最適な設定を見つける必要があり、これまでは多くの試行錯誤が必要でした。この研究では、動画を事前にエンコードすることなく、動画の特徴を分析して最適なビットレート・ラダーを予測する新しい方法を提案しています。この方法は、わずかな品質の低下で、従来の方法よりも優れた結果を出すことができるとしています。

  • 公開:2024-01-09


Machine unlearning through fine-grained model parameters perturbation

微細なモデルパラメータの摂動を通じた機械の忘却

  • Zhiwei Zuo , Zhuo Tang , Kenli Li , Anwitaman Datta


  • 機械学習解除技術は、人々のプライバシーを守るために使われます。これは、機械学習モデルから特定のデータの影響を取り除くことで、そのデータがモデルに与えた影響を減らすことを意味します。しかし、このプロセスは計算に多くの時間とリソースを要します。研究者たちは、計算コストを抑えながらプライバシーを保護する新しい方法を提案しています。これには、モデルのパラメータを部分的に変更する「Top-K」と「Random-K」の二つの手法があります。また、モデルがどれだけデータを「忘れた」か、また「覚えている」かを測る新しい指標を提案し、データの分布を微妙に変えるSPD-GANという技術を使って、解除の効果をより正確に評価します。これにより、モデルの性能を大きく落とさずに、効率的なプライバシー保護が可能になります。

  • 公開:2024-01-09


Iterative Feedback Network for Unsupervised Point Cloud Registration

非監督学習のための反復フィードバックネットワークによる点群の登録

  • Yifan Xie , Boyu Wang , Shiqi Li , Jihua Zhu


  • 点群レジストレーションは、3Dスキャンなどで得られた点の集合(点群)を正確に重ね合わせる技術です。多くの方法では、詳細な情報が基本的な情報を改善するのに十分活用されていません。この論文では、新しい「反復フィードバックネットワーク(IFNet)」という方法を提案しています。この方法では、点群を段階的に整えるためのブロックを繋げて、高度な情報を使って基本的な情報を改善します。また、点群の形状に関する情報を取り入れることで、より正確に点群を合わせることができます。この技術は、様々なデータセットでの実験により、その効果が証明されています。具体的な効果としては、3Dモデルの精度が向上し、例えば自動運転車の環境認識やロボットのナビゲーションなど、様々な分野での応用が期待されます。

  • 公開:2024-01-09

この記事が気に入ったらサポートをしてみませんか?