【S2W、サイバーセキュリティ文書に特化したAI言語モデル「サイバーチューン」公開】S2W 紹介記事

2024年7月12日 10:00

こんにちは、S2W NOTE編集です。
本日の記事では、世界トップクラスの学会「NAACL(北米計算言語学学会)」でサイバーセキュリティ文書に特化したAI言語モデル「サイバーチューン」を公開しましたので、その内容をご紹介します。

以下は、2024年6月20日付の韓国のITメディア『financial news』の記事を翻訳・編集した内容になります。

S2W、サイバーセキュリティ文書に特化したAI言語モデル「サイバーチューン」を公開

S2Wは人工知能において世界最高峰の学会のひとつ「NAACL(北米計算言語学学会)」でサイバーセキュリティ文書に特化したAI言語モデル「サイバーチューン」を公開したと20日明らかにしました。

S2Wは6月16日から21日までメキシコのメキシコシティで開催されたNAACL 2024に参加し、「サイバーセキュリティ領域での事前学習のための非言語的要素の活用（「Ignore Me But Don't Replace Me: Utilizing Non-Linguistic Elements for Pretraining on the Cybersecurity Domain」）」というタイトルで論文を発表しました。これにより、S2Wは自然語処理（NLP）分野の世界トップクラスの学会で3年連続論文が正式に採用されるという成果を達成しました。

S2WとKAIST（韓国科学技術院）の研究チームが共同開発したサイバーチューンは、サイバーセキュリティデータの特性を考慮し、BERTなどのエンコーダモデルを効果的に微調整したAI言語モデルという意味を込めています。昨年、世界で初めてリリースしたダークウェブに特化したAI言語モデル「DarkBERT」に続き、2番目に公開するS2W独自の言語モデルです。

サイバーチューンの基本枠組みとなるBERTとは、言語モデルにさらに高次元の文脈を理解できるように、MLM（Masked Language Modeling）を経て作業遂行能力を向上させる双方向言語エンコーダモデルです。BERTが一般的な文字列に加えて、URL、SHA Hashのように人間が理解しにくい非言語的要素を含むサイバーセキュリティ文書の理解を助けることがサイバーチューン技術の核心部分です。

業界の専門家によると、従来もセキュリティ文書を対象としてAI言語モデルを学習しようとしましたが、一般的に使用される言語と専門的なサイバーセキュリティ知識に使用される言語が異なるため、文脈を正しく理解することに限界がありました。

S2Wはそれを改善するために独自に非構造型データを処理し、独自のモニタリング技術でセキュリティ文書データを収集しました。非言語的要素については、文章の構成要素の代わりにタイプを学習する方法に変更し、これにより、サイバーセキュリティ関連の文書の分類、オブジェクト名の認識、事件の検出など、さまざまな作業で有意な結果を得ることができました。

サイバーチューンはオープンソースで公開され、今後AIを利用してサイバーセキュリティ文書を分析し、これにより新たな脅威の発掘と効果的な対応に悩む組織や専門家に役立つと期待されています。また、S2WのXARVIS、QUAXARなど自社サービスにも適用するなど、様々なAI関連モジュールに拡大して適用する予定です。
サイバーチューンを介してウェブ上の数多くのサイバーセキュリティ文書をリアルタイムでエンコードし、ベクトルDBに保存します。ユーザーの質問に応じて、検索拡張生成（RAG）方式で質問に答えることができる文書を迅速に検索した後、大規模言語モデル（LLM）を通じて回答を生成、ユーザーに提供するという方法の検索ベースのチャットボットサービスを公開する予定です。

S2Wの徐尚徳（ソ・サンドク）代表は「サイバーチューンはセキュリティ脅威の発見だけでなく、実質的な解決方法まで提示できる強力なセキュリティ技術です。S2Wがグローバルデータインテリジェンス企業として高速成長する核心的な動力になるものと思われます。今後もセキュリティに特化したAI言語モデル分野で独自の技術競争力を強化して行きます」と述べました。