ネイバーの大規模言語モデル（VentureBeatの記事）

2021年12月10日 23:52

写真出展：Gerd AltmannによるPixabayからの画像https://pixabay.com/ja/users/geralt-9301/?utm_source=link-attribution&utm_medium=referral&utm_campaign=image&utm_content=942487

　2021年12月7日にVentureBeatは、ネイバーの大規模言語モデルによるビジネスに関する記事を発表した。内容は、ネイバーが新しい方法で自然言語に近い文章を生成するAIを開発した件について解説するものである。日本ではLINEの親会社や「NAVERまとめ」という程度しかイメージがないが、イノベーションに積極的に投資している会社でもある。今後の自然言語AIの推移を予測する上で参考となると考えられることから、本記事の概要について紹介させていただく。

↓リンク先（Naver’s large language model is powering shopping recommendations）
https://venturebeat.com/2021/12/07/navers-large-language-model-is-powering-shopping-recommendations/

１．本記事の内容について
　・今年7月韓国企業のネイバーは、「ハイバークローバ」という世界最大級AIの機械学習訓練を字視していると発表した。このAIは、オープンAIであるGPT-3よりも6500倍以上多いデータに基づいて学習をこなしており、2040億のパラメーターを持ち、歴史的なデータから機械学習を行っている。
　・マーケティングやカスタマーサポートに活用される、自然言語を生成する大規模言語モデルは、ほとんどが英語主体だったが、これは企業が他の言語で機械学習するのに十分なデータ資源を持っていなかったことが、その要因である。ネイバー執行役員のソン氏は、ハイパークローバ開発の数か月後から、ネイバーサーチエンジンの検索結果を個人用にカスタマイズするために活用し始め、ベータ版も近日公開予定と語った。当初はネイバー検索のタイピングを修正することに用いられていたが、ネイバーのeコマースのカスタマーレビューのまとめ、お薦め商品の紹介だけでなく、高齢介護者向けの会話ロボットにも応用されているとも語った。
　・ネイバーは、700ペタフロップの能力を持つサーバークラスターを利用してハイバークローバの学習を行っており、2テラバイトの韓国語データを学習するのに、２か月を要した。主な情報源は、ナレッジiNという韓国語の質問投稿サイト、ネイバーが提供するホスティングサービス利用者の投稿などである。こういったデータから韓国の文化や社会についての情報を学習に取り込むことで、より韓国語を自然に取り扱えるようになり、他のAIサービスへの依存を軽減することができるとしている。
　・生成言語モデルは投入されるデータを忠実に反映することから、各国はデータの質向上や学習方法を工夫している。あるオープンAIの専門家は、今回のハイパークローバもこの流れの中にあり、この学習方法がGPT-3と伍するものであるかどうかを見守りたいとしている。また一部の専門家は、影響力のあるAI開発システムは、アメリカ、EU、中国に偏在していることから、経済的利益もこの地域が寡占することになると見ている。機械学習の論文発行数を分析すると、上位10か国に入っていない地域は、ラテンアメリカ、アフリカ、南アジアである。更にCSETの分析によると、62の主要なAI研究所のうち42はアメリカ以外にあるが、68%の職員がアメリカにいるとしている。
　・モデルの開発に伴う課題についても検討されている。モデルはデータにある偏見を増大させる可能性があり、機械学習環境の影響が懸念される。この問題に対処するため、ソン氏は外部有識者との議論を重ねており、ソウル大学のAI研究者と共にAI政策の策定やAI倫理規範の諮問委員会設立などを計画している。また同社は韓国語理解の基準を発表しており、外部の意見を取り込みやすくすることで、サービスの設計や安全性を向上させようとしている。
　・ハイパークローバは、現在e-コマースサイトでより売れやすくなるような名前を付けるために用いられており、更に個人の購入履歴からお薦め商品を紹介することにも応用しようとしている。また既存のアルゴリズムとは異なり、既存のユーザーに対してだけでなく、利用頻度が低い顧客やサービスにも目を向けた、一般的な価値観でのお薦めができるようになることが期待されている。その他、多言語対応やAPIによるアプリやサービス開発の支援にも乗り出している。
　・パンデミックにより、自然言語に対する需要が増加してきた。2021年のとある調査によると、60%の技術界のリーダーは自然言語処理予算を少なくとも2020年比で10%以上増加させるとしており、33%は30%以上増額したとしている。2026年までには、世界の自然言語市場は351億ドルになると見込まれている。ハイパークローバは、ノーコードでのベータ版の公開も予定しており、AIの専門家だけでなく、ビジネスマネージャーやサービスプランナーなどにも活用の道が開かれており、多くの人々がAIの力を活用して利益を得られる可能性がある。

２．本記事読後の感想
　　韓国については、ニュースが多い割には、その実態が良く分かっていない所が多いと感じる。基幹的な技術力はないものの、部分的には強みを発揮しており、サムスンの半導体やスマートフォンはその典型例だろう。
　　NAVERについては怪しい会社ぐらいにしか思っていなかったが、今回のニュースで少しばかり見方を変えなければならないと認識した。保守系論者から出てくるニュースばかり見ていると、その実態を見誤るという事であり、今後も幅広くニュースを収集する必要性があるだろう。
　　ただこういった記事を読んでいると、韓国のように人権をあまり重んじない国が少し羨ましくなる。日本は個人情報保護をあまりに強く訴えるあまり、豊富なデータが十分に活用されず、データに基づいたイノベーションがなかなか創出されない。最も、日本人はアマゾンやLINEなどには情報を渡しても気にしないが、ほとんど情報が入っていないマイナンバーには過剰反応するという、非常に感情的で、まっとうなセキュリティ意識に基づかない判断をしがちである。結果として、政府に情報を渡さない代わりに海外に情報を無料で提供することになり、却って脆弱な状況になっているのだが、日本人にはもう少し冷静に判断して欲しいものだ。
　　
　英文を読んでわからないという方は、メールにて解説情報をご提供させていただきます。なにぶん素人の理解ですので、一部ご期待に沿えないかもしれませんので、その場合はご容赦願います。当方から提供した情報については、以下の条件を守ったうえで、ご利用いただきますようよろしくお願いいたします。

(1) 営利目的で利用しないこと。
(2) 個人の学習などの目的の範囲で利用し、集団での学習などで配布しないこと。
(3) 一部であっても不特定多数の者が閲覧可能な場所で掲載・公開する場合には、出典を明示すること。（リンク先及び提供者のサイト名）
(4) 著作元から著作権侵害という指摘があった場合、削除すること。
(5) 当方から提供した情報を用いて行う一切の行為（情報を編集・加工等した情報を利用することを含む。）について何ら責任を負わない。

この記事が気に入ったらサポートをしてみませんか？