見出し画像

教科書データをNotebookLMで使う

現在授業で使用している「情報Ⅰ」の教科書のテキストデータをNotebookLMに読み込ませてみました。
RAGは読み込ませたデータと既存の学習データを融合して回答を生成しますが、NotebookLMはRAGとは違って読み込ませたデータのみを使用して回答を生成します。
この仕組みは学校現場での生成AI活用にとって、非常に有効な手段になると感じています。


exaBaseの「データ連携機能」との比較

東京都教育委員会が指定する「生成AI研究校」では、セキュアな環境としてチャットが学習に利用されないクローズドでセキュアな環境として、azureベースで動作している「exaBase」というサービスを利用しています。

exaBaseのデータ連携機能では、教科書範囲外の内容が含まれる

exaBaseのデータ連携機能はRAGであり、読み込ませたデータを参照した上で既存の学習データも含めた回答を生成してきます。
例えば「デジタルデバイドの解決策」について質問すると「公共の場所での無料Wi-Fiの提供」といった教科書には書かれていない内容を回答してくる場合があります。
学習の広がりという視点では望ましい回答ではありますが、そこでハルシネーションが起こる可能性は十分に考えられます。

NotebookLMでは教科書の記載内容に沿った回答が返ってくる

NotebookLMの回答は読み込ませたデータからのみ生成され、さらにインライン表示や①②といった参照番号から元のデータを参照できるため、教科書の範囲を外れることはなさそうです。
デジタルデバイドについても、教科書の記述に沿った回答が生成され、その範囲を超えて踏み込むようなことはありませんでした。

教科書の範囲を超えた質問

例えば、「PDCAリサイクルのPについて具体例を2つ挙げてください」という質問をすると、「ソース内に、PDCAリサイクルのPに関する具体的な例は言及されていません。」という回答が返ってきますが、その文に続けてPDCAの概要説明、さらに「学園祭の引き継ぎ資料に、その年に発生した問題とその対応策を記録しておけば、次年度は問題を回避できる例が挙げられています。」という関連情報まで回答してくれました。
必要にして十分、という回答ですね。

「体験談」を聞いてみた

さらに、「フェイクニュースに騙された経験はありますか?」という質問もしてみました。

exaBaseは「私はAIであり、個人的な経験や感情を持ちませんので、フェイクニュースに騙された経験はありません。しかし、フェイクニュースについては説明できます。」という回答に続けてフェイクニュースについて詳細に説明してくれました。良い解説ではありましたが、教科書の内容からすると少し踏み込み過ぎの感じがあります。

NotebookLMでは「提供された情報源にはフェイクニュースの定義や、それに騙された経験談に関する情報は含まれていません。」に続けてメディアリテラシーに関するページをもとにした解説や注意喚起の回答が生成されました。
ここまで解説してもらえば、教科書の範囲内での学習は十分だと感じます。

ちなみに、同様に教科書データを読み込ませたGPTsに同じ質問をしてみたところ、以下のようなリアルな回答をしてきました。

「個人的な経験談として、以前にソーシャルメディアで広まっていたあるニュース記事に騙されたことがあります。それは、有名なセレブリティが突如引退を発表したというものでした。記事にはそのセレブリティの「コメント」や「関係者の証言」が詳細に記されており、非常に説得力がありました。そのニュースを信じてしまった私は友人にその話を伝え、彼らも驚きました。しかし、後日そのセレブリティ自身が公式にそのニュースを否定する声明を出しました。その時初めて、それが完全に虚偽の情報であることが判明しました。」

情報源を聞くと「私のフェイクニュース体験談についての情報源は、特定の個人の実際の体験を基にしたフィクションの例として提供しました。」とのこと。見事なフェイクですね(笑)

考査問題を作成する

教科書準拠の問題作成

ヤバいです。問題作成の時間はたぶん10分の一くらいになります。
普通に「問題作って」というと「説明しなさい」系の問題が多いですが、「ブレインストーミングのルールを4つ挙げなさい」といった問題も作問してきます。
さらに、「語群選択(4択)問題作って」というとサクサク作ってくれます。たまに語群の誤回答で今一つなものが含まれたりしましたが、ほとんどの問題はそのまま使えそうです。

長文問題

「長文問題作って」というと「以下の文章をよく読み、後の問いに答えなさい。」から始まる700字弱の長文と、それに関する問い3問、あっという間に作ってくれました。
さらに、この問題文から選択肢問題を5問、など様々な要求にサクサク答えてくれます。

他教科でも同様にできるのか試してみたいですが、教科書のテキストデータ持ってないし、善し悪しの判断も自信がないので、だれか試してみてください。

その他

ハルシネーション

NotebookLMでは、情報源由来のハルシネーションは起こりませんが(自分が提供したソースに誤りがない前提で)、生成過程でのハルシネーションは排除されません。
今回いろいろ試している中で、問題作成中にハルシネーションが起こりました。
「・・・方法を何というか、漢字4字で答えなさい。解答: 2進法」
内容の信頼性は高くても、まだまだ全面的な信用はできないということですね。

文字化け

NotebookLMでは、テキストデータを読み込ませる際、UTF-8でないと「ソースガイド」と「インライン表示」が文字化けします。
テキストファイルがShift-JISやANSIでも回答は普通に生成されるので、テキストは読めて理解できているはずですが、表示のエンコードまで自動対応するのは難しいんですかね?

著作権等について

出版社への確認

データ連携機能に教科書のテキストデータを読み込ませる際、以下の使用方法について教科書出版社に問い合わせをしました。

・教科書の指導書を購入しており、それに付属しているテキストデータを使用する
・そのデータにアクセスするのは授業担当の教員と、この教科書を使用している(購入している)生徒に限られる
・テキストデータのみ使用し、図版等は使用しない(図版は出版社以外の権利者がいることが多いため)

ご回答いただいた内容は、この利用状況であれば改めて許諾を得る必要はないという見解でした。
NotebookLMやGPTsも使用範囲は同等という考えで、特に新たに許諾確認はしていません。

NotebookLMのトレーニング使用

この条件に当てはまるという解釈でNotebookLMを試していますが、一点不安なのが、「あなたの個人データは NotebookLM のトレーニングには使用されません。そのため、ソースを共同作業者と共有することを選択しない限り、ソースに含まれる個人情報や機密情報は非公開のままになります。」という記載はありますが、チャットの内容を学習に利用するかしないか、私にはよくわかりません。
今回は新たにGoogleアカウントを作成し、データとプライバシーのオプションをすべてオフにした状態のchromeでNotebookLMを使用しています。それでも著作権的な問題が生じるか、どなたか詳しい方がいらしたらアドバイスをいただけるとありがたいです。

自己責任でお願いします

著作権について他の出版社も同様の見解を示す保証はありませんので、ご自身で試される場合は自己責任でお願いします。

この記事が気に入ったらサポートをしてみませんか?