見出し画像

タンテキくん開発秘話No.2〜文章要約AI ニュースタンテキ!開発への道のりとは〜

こんにちは!バズグラフです🌟

今回は文章要約AI ニュースタンテキがどのような経緯で開発されたのかご紹介いたします!

独自の自然言語処理技術とは?

NEWS記事に特化した文章要約AI ニュースタンテキは、まだまだ馴染みのないAIだと思います。

画像2

私たちが開発した文章要約AI ニュースタンテキの背景には、独自の言語解析モデルである「機能素解析」を用いた、自然言語処理エンジン「Spider Cat」を使用しています。

機能素解析とは、語と語の関係性や機能に着目し文章を構造化する技術であり、文の類似判定や要点抽出などの自然言語処理に有効です。

また、世界のどの言語においても、語と語の関係性を表現するという点は全く同じ物や行為の名前(名詞や語幹)は勿論重要ですが、実はその他の語や語句(機能語)や語順などが意味理解の鍵となるため、多言語への応用が可能な技術でもあります。

画像3

自身の解析結果を背景知識化し自らの解析にフィードバック

次の3つの文章からも解説していきます。

「山田に怒られた」「山田が怒られた」山田を怒った」

この3つの文章はよく似ていますが、意味は全く異なります。

しかしAIの解析では、このような語はディープラーニングにおいては特徴のない語として捨てられてしまうことが多い語でもあるのです。

画像4

Spider Catはその捨てられてしまう語に注目し、自身の解析結果を背景知識化し自らの解析にフィードバックすることが可能です。

大量の文章を解析し、解析結果を背景知識化して自らの解析にフィードバックすることができるのです✨

Spider Catでの重要なコンセプト【2つに大きく言語を分解】

Spider Catのもっとも重要なコンセプトは、言語を「名前の語」「機能の語」の2つに大く分けてしまうことです。これによって、よりシンプルに言語解析を行うことができるようになり、また、より少ないデータで言語解析を行うことが可能となりました。

画像1

人や物の名前は、文明の発達とともに、無限に増え、また、変化して行きます。

逆に要素と要素(人や物)の関係を表す言葉はどのような言語においても比較的数が一定で、尚且つある程度の普遍性を持った言葉だと言えます。

これは、どの言語についても共通した特性で、特に膠着語においては多くの動作や状態を表す語は、変化しない共通の語幹と言われる部分と変化して活用形を成す部分に分けることができます。

機能素解析は、上記のような事象を演じる要素の関係性や動作や状態の変化部分を語の機能と捉えて文章の解析を試みる手法です🌟

もう一つの背景技術『AIデータベース』

タンテキの背景には、文章の構造解析を行うSpider Catともうひとつ、自律的に知識を成長させて行くAIデータベースという技術があります。

下記はその連携の図で、特に赤い矢印の部分が自らの解析結果を背景知識としてフィードバックする部分です。

画像5

AIデータベースで使用している特徴語リスト多くの記者が記事中で使った特徴的な語をポイント化したリストです。

このリストは、ニュース記事約1年半分140万記事の自らの解析結果をAIデータベースに渡すと、毎日特徴語のリストが作成され、常に知識が更新されていきます。

〜タンテキのこれから〜

今後ニュース記事に特化した文章要約AI ニュースタンテキは、年内に更に改良を重ね、文章構造図を公開するなど新機能を追加していく予定です!

皆様の率直な意見も是非いただけたらと思ってますので、コメントお待ちしております!

僕のパパは 株式会社バズグラフ 代表理事の西本光治だテキ〜 (5)

次回の更新もお楽しみに!

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?