見出し画像

【学会参加レポート】IEEEの国際会議「COMPSAC 2024」に参加しました!

こんにちは!株式会社GA technologiesの研究開発組織「Advanced Innovation Strategy Center(AISC)」の三田と申します。

先日開催されたCOMPSAC 2024にAISCのAaron Bramsonと共に参加し、Aaronはマンションの家賃査定に関する研究の発表も行いました。

本記事では学会の雰囲気について簡単にご紹介いたします!

左から、三田、Aaron

COMPSACについて

COMPSACは正式名称が「IEEE International Conference on Computers, Software, and Applications」という国際会議で、コンピューターサイエンスやその応用をはじめ、IoTや機械学習やデータサイエンスなど様々なジャンルを扱っている学会になります。

今年のCOMPSAC(COMPSAC 2024)は大阪市にて開催され、主に大阪大学中之島センターにて発表が行われました。

大阪大学中之島センターの外観

中之島センターは新しくてデザインが凝っているオシャレな建物で、私の中の国立大学に対するイメージを変えるような素敵な場所でした。

建物内のカフェテリア

ただ、今回のCOMPSACでは基本的に30人~40人規模の教室が使われたので、人気のあるセッションは満席になって入れないこともありました…。

中之島センター内、発表会場のあるフロア

なお、2日目にはヒルトン大阪にてBanquet(懇親会)が開かれました。こちらは立食パーティーではなく座ってお喋りとフルコースを楽しむというものです。実は本学会の開催前日の夜にも立食パーティー形式の懇親会があり、初めて国際会議に参加する私としては懇親会への力の入れ方が国内学会よりも強くて驚きました。

鏡開きをするIEEEのオーガナイザーたち

弊社の発表について

弊社からは、Aaronと私による「Explicable Machine Learning Models Using Rich Geospatial Data」という賃料推定の説明性を向上させる方法についての研究を発表しました。

内容について簡単にご紹介します。機械学習による賃料推定では、物件の緯度経度や最寄り駅の名前など物件の位置を示す特徴量が予測性能に大きく寄与する傾向があります。そのため予測の理由を説明させるときにSHAPなどを用いると「この物件は経度が139.7だから+1万円」といった説明になり、人間にとってわかりにくくなります。そこで本研究では地理空間データから「近隣のスーパーやコンビニの多さ」「主要駅へのアクセスの良さ」などの特徴量を作成して緯度経度などの特徴量を置換することで予測性能を落とさずにSHAPなどの技術による説明により適したモデルを作成する方法を示しました。

参加メンバーの印象に残った発表について

各メンバーが聴講していて印象的だった研究について簡単に紹介していきます!

Aaron

Improvement of Deep Learning Models by Excluding Inappropriate Data Based on Interpretability
Saneyasu Yamaguchi, Fuma Hirabayashi and Atsuki Tamekuri

The idea of being able to automatically detect items in the sample data that reduce the quality of predictions is a great capability.  This system allows one to identify the training data that produce weird outputs by testing against a validation set within the training data.  Then it removes the anomalous training data, and creates improved predictions.   In some cases, if the amount of training data is very large, then a few wrong annotations will not be a problem, but even then it is better to identify and remove/fix them.  In many important applications, the training data set is not so large, so fixing mislabeled training data is crucial for good predictions.  Because many datasets are annotated by nonexperts, having an automatic way to identify mislabeled data can help across all applications of deep learning.

(拙訳)サンプルデータ内の予測の質を低下させる項目を自動的に検出できるというアイデアは素晴らしいです。このシステムでは、訓練データ内のvalidation setに対してテストすることで、奇妙な出力を生成する訓練データを特定できます。その後、異常な訓練データを削除し、改善された予測を生成します。訓練データが非常に多い場合、少量の誤ったアノテーションが問題にならないこともありますが、それでも特定して削除または修正する方が良いです。多くの重要な応用では、訓練データがそれほど大きくないため、誤ったラベルが付与された訓練データを修正することが良好な予測のために重要です。多くのデータセットは専門家でない人々によってアノテーションされているため、誤ったラベルを自動的に特定する方法があれば、ディープラーニングのすべての応用において役立ちます。

A Safe Vehicle Routing System Based on Road Characteristics from Telematics Data
Hiroshi Tei, Tomoya Kawakami and Yoshimi Kawamoto

The foundation here is route selection for logistic problems: the most efficient way to visit all target sites on a network.  This is a version of the famous traveling salesman problem.  They want to add safety and related information to the network edge weights to guide trucks along safer routes because commercial trucks are responsible for the largest number of accidents.  They can use historical data about the locations of accidents as well as real-time data about vehicle speeds and behavior to change the edge weights.  They use a simple weighting function to balance time and safety, and show how different parameters affect the route choices.  This is currently done on simple generated networks, but they are planning to expand to real road networks in Fukui.  I've worked on similar multi-objective route planning algorithms, and I have processes to collect and combine multiple data sources to create rich road network data, which may be useful to improve their systems.

(拙訳)この研究の基礎となるのは、物流問題におけるルート選択です。ネットワーク上のすべてのターゲットサイトを訪れる最も効率的な方法を指します。これは有名な巡回セールスマン問題の一種です。事故数のうち最大のカテゴリは商用トラックであるため、彼らはトラックをより安全なルートに導くためにネットワークエッジの重み付けに安全性や関連情報を追加したいと考えています。事故の場所に関する過去のデータや車両の速度や行動に関するリアルタイムデータを使用してエッジの重みを変更できます。彼らは時間と安全性のバランスを取るためにシンプルな重み付け関数を使用し、異なるパラメーターがルート選択にどのように影響するかを示しています。現在、これはシンプルな生成されたネットワーク上で行われていますが、福井の実際の道路網への拡張を計画しています。私も同様の多目的ルート計画アルゴリズムに取り組んでおり、複数のデータソースを収集して組み合わせ、リッチな道路ネットワークデータを作成するプロセスを持っているため、彼らのシステムの改善に役立つかもしれません。

三田

A Latency Aware and Dynamic Caching Model for Heterogeneous Datalake Environments
Deepika Saxena, Ashutosh Kumar Singh and Volker Lindenstruth

データレイク(非構造化データを含むさまざまな未加工のデータを置いておく場所)は扱うデータのサイズが大規模になるためクエリに対してレスポンスを返すまでの速度が長くなりがちです。そこでレスポンス速度を短縮するための方法のひとつがキャッシュの利用になります。

この研究では、必要そうなデータを動的にキャッシュとして確保するために機械学習を使用するというものです。各データへユーザーがアクセスする頻度や時間帯などの傾向、cash hit rate等のデータをもとに、LSTMモデルを使って必要なデータを予測してキャッシュを構築していきます。

私自身はデータレイクではなくデータウェアハウス(構造化されたデータを貯めた場所)を使うことが多いのですが、レスポンスに数十秒待たされて不満に感じることもあるため、この研究は問題設定が身近に感じましたし、このような研究が進んでより快適なデータ基盤が普及して欲しいなと思いました。

Maintaining Performance of a Machine Learning System Against Imperfect Retraining
Zhengji Wang and Fumio Machida

1つのシステムに複数の機械学習モデルを用いる場合において、一部のモデルだけパフォーマンスが落ちてきたときに一部のモデルだけ再学習することのメリットやデメリットなどを整理し、どのような戦略でメンテナンスするとよいのか、その場合のメリット・デメリットはどうなるのかを調査した研究です。

例えば上流モデルと下流モデルの2つがあるとき、上流モデルの精度が落ちてきたからといって上流モデルだけを再学習すると、下流タスクでdataset shiftが起きてシステム全体としてはむしろ再学習しないほうがよかったという結果になりかねません。かといって常にシステムに関わる全モデルを再学習するのもコスト的に難しい場合もあるので効率的な方法を探したい…といった話です。

現在私が携わっているプロジェクトではそこまで機械学習モデル同士が複雑に絡み合ったシステムは作っていないものの、今後そのようなプロジェクトに関わることになった際は上流モデルだけの局所最適化に陥らないように、全体を考えるよう気をつけていきたいと感じました。

おわりに

私にとっては初めてのCOMPSACへの参加でしたが、さまざまな分野の方の話を聞くことができて楽しかったです(ストリーミングデータ分析、サイバーセキュリティ、テスト自動化、IoT、etc.)。また機会があれば参加したいと思います。

AISCではほかにも学会に参加しており、ブログにてご紹介しております。
もしご興味をお持ちいただけた場合は、ぜひご覧ください!



この記事が気に入ったらサポートをしてみませんか?