見出し画像

第009話 文章生成の仕組み

AIが「文章生成」を行う仕組みについて簡単に説明します。

一般的に「AI」という言葉が使われていますが、これは総称のようなものです。実際、AIは「AI」という器の中に「機械学習(さらにこの中に「ディープラーニング」)」の要素を含んでいます。AIの「文章生成」は、これらの要素で膨大な言葉のデータを学習し、人間の話しかけた(入力した)内容を理解して、適切な応答を返します。これが「文章生成」の仕組みです。

事前にAIが学習したデータの量が重要であることは一目瞭然ですが、もうひとつのポイントは「言語の理解」です。特に、日本語は他国からみても「難しい」と評されていますが、AIにとっても同様です。日本語の難易度が高い理由はたくさんありますが、デジタル化の視点だと「表現の多さ」「文字の多さ」「当て字」などがあげられます。rinna社はインドネシア語などグローバルに対応しているので、 特に日本語の表現が可能なAIの研究に注力しており、人間が使う言葉を確率に置き換えて、確率に基づき文字列を並べて、高度な日本語文章の生成を可能にしています。

確率とは、文章の書き出しが「A」という文字列の場合、「A」の次に続くと予測できる文字列「B」、さらに、「B」の後に続く文字列を「A」+「B」の組み合わせから「C」……、というように、判別を実行しながら文章を生成する際、正しい文章を完成させるために適切な文字列を選び出す期待度のことです。この確率が高いほど「意図した文章」を生成しやすくなります。

これまで研究の成果は公開し、多くの研究・開発者にご利用いただいていますが、もっと深く知りたいという方は私たちのWEBページ「研究開発(rinna.co.jp)」をご覧ください(内容は、開発者向けのため難易度は高めです)。

【研究開発(rinna.co.jp)】
https://rinna.co.jp/研究開発