PDFからLLMでPodcastをつくる

2024年9月30日 23:20

巷ではNotebookLMでPDFをポッドキャスト形式の音声に変換して出力できる機能が話題みたいです。わたしも試してみたのですが、英語の音声の出力機能はあるのですが、いまのところ日本語音声の出力はまだ対応されていないみたい。

そこでgithubでpdf-to-podcastというそれっぽい名前のプロジェクトを見つけたので早速試してみました。

日本語対応のため、main.py中のダイヤログのプロンプトに日本語風味を少々加えてみます。

    def generate_dialogue(text: str) -> Dialogue:
        """
        Your task is to take the input text provided and turn it into an engaging, informative podcast dialogue in Japanese. The input text may be messy or unstructured, as it could come from a variety of sources like PDFs or web pages. Don't worry about the formatting issues or any irrelevant information; your goal is to extract the key points and interesting facts that could be discussed in a Japanese podcast.

        Here is the input text you will be working with:

        <input_text>
        {text}
        </input_text>

        First, carefully read through the input text and identify the main topics, key points, and any interesting facts or anecdotes. Think about how you could present this information in a fun, engaging way that would be suitable for an audio podcast.

        <scratchpad>
        以下の点を考慮しながら、入力テキストから抽出した主要なトピックやポイントについて、クリエイティブな議論の方法をブレインストーミングしてください：

        1. アナロジー、ストーリーテリング技法、仮説的なシナリオを使用して、内容をリスナーにとってより身近で魅力的なものにする方法
        2. 一般的な聴衆にとってアクセスしやすいように、専門用語の使用を避け、複雑な概念を簡単な言葉で説明する方法
        3. 入力テキストのギャップを埋めたり、ポッドキャストで探求できる思考を促す質問を考える方法
        4. 情報提供と娯楽のバランスを取りながら、クリエイティブなアプローチを取る方法

        ここに、日本語でブレインストーミングのアイデアとポッドキャストの対話の大まかな概要を書いてください。最後に繰り返したい主要な洞察や要点を必ず記述してください。
        </scratchpad>

        Now that you have brainstormed ideas and created a rough outline, it's time to write the actual podcast dialogue in Japanese. Aim for a natural, conversational flow between the host and any guest speakers. Incorporate the best ideas from your brainstorming session and make sure to explain any complex topics in an easy-to-understand way.

        <podcast_dialogue>
        ブレインストーミングセッションで考えた主要なポイントやクリエイティブなアイデアに基づいて、魅力的で情報量の多いポッドキャストの対話を以下に日本語で書いてください。以下の点に注意してください：

        1. 自然な会話調を使用し、一般の聴衆にも理解できるように必要な文脈や説明を含めてください。
        2. ゲストは入力テキスト内で裏付けられていない内容を含めてはいけません。
        3. 音声として読み上げられることを想定して出力をデザインしてください。これは直接音声に変換されます。
        4. [ホスト]や[ゲスト]などの括弧付きのプレースホルダーは使用しないでください。
        5. ホストやゲストは相手の話を注意深く聞いてから発言しますが、互いに話を途中で遮ることでテンポよく会話を進めることが出来ます。
        6. スクリプトをリアルにするために、「そうですね」「なるほど」などの相づちや、「えーと」や「あの」などの考え込む様子を表す表現を適切に使用してください。
        7. トピックに沿って魅力的な流れを維持しながら、できるだけ長く詳細な対話を作成してください。
        8. 入力テキストからの重要な情報を楽しい方法で伝えながら、可能な限り長いポッドキャストエピソードを作成することを目指してください。

        対話の最後に、ホストとゲストスピーカーが自然に議論の主な洞察と要点をまとめるようにしてください。これは会話から自然に流れ出すようにし、カジュアルで会話的な方法で主要なポイントを繰り返すようにしてください。明らかな要約のように聞こえないようにし、締めくくる前に中心的なアイデアを最後にもう一度強調してリスナーの印象に残すことが目標です。
        </podcast_dialogue>
        """

おためしで英語論文のpdfを変換してみます。

出力されたポッドキャスト音声

標準では音声が少し遅い感じがするので、1.5 倍速あたりで再生すると良さそうかも。なかなかいいかもと思うのですが、いかがでしょうか。

参考：出力された台本

male-1: こんにちは、今日はトランスフォーマーのフィードフォワード層について考えてみましょう。普通はあまり注目されないけれど、実はこの層がどれだけ重要か、少し掘り下げてみたいと思います。

female-1: そうですね、フィードフォワード層はトランスフォーマーの中で約66%のパラメータを占める要素です。しかし、その具体的な役割についてはあまり知られていないんですよね。

male-1: 例えば、フィードフォワード層は「キー」と「バリュー」という視点で記憶のように機能することが研究で明らかになっています。つまり、特定の入力パターンに基づいて次の単語を予測する際にこれらを使うということです。

female-1: 確かに、それがどういう意味かを考えると面白いですね。フィードフォワード層は、まるで個々のパターンを認識する機械のような役割を果たしているわけです。

male-1: そうそう！例えば、低層では表面的なパターンを捕らえることが多く、一方で高層になるとより意味に基づいたパターンを学習するんです。これって、まるで人間が段階的に物事を理解していくのと似ていますね。

female-1: なるほど、だから階層が上がるにつれて、予測もどんどん正確になっていくということですね。実際の例を見てみると、どうやってキーとバリューが関連するかが分かりますよね。

male-1: はい、例えばあるキーが「時間」に関連する場合、次に来る単語は「while」みたいになったりするわけです。このようにしてモデルは出力を構成していくわけですね。

female-1: すごく興味深いですね。情報がどのように集まって、最終的に出力が生成されるのかを理解するための鍵になる部分ですね。それに、フィードフォワード層の役割の解明が、自然言語処理のさらなる進展につながる可能性があると。

male-1: その通りです！今後の研究の方向性としては、フィードフォワード層の理解を深めることで、より良いモデルの開発や解釈可能性の向上も期待できますね。

female-1: まとめると、今日のポイントはフィードフォワード層が記憶を模倣するように設計され、具体的なパターンを捉える役割を果たしているということです。リスナーの皆さんも、この視点を参考にして、トランスフォーマーの理解を深めてもらえたらと思います。

male-1: そうですね、私たちの知らないところで活躍しているフィードフォワード層の働きに注目して、今後の進展を楽しみにしましょう。今日は素晴らしいお話ができました！

この記事が気に入ったらサポートをしてみませんか？