２時間のYoutube音声を自動で要約～ NVIDIAのCOMPUTEX 2023基調講演

2023年6月2日 14:59

先日のNVIDIAのCOMPUTEX 2023でのジェンスン・ファンさんの基調講演を題材に、Youtube音声の要約課題に再トライしてみました。

音声をダウンロード

トータル時間：１時間５５分５７秒
実行時間：２秒

!yt-dlp -x --audio-format mp3 https://youtu.be/i-wpzS9ZsCs -o nvidia2023.mp3

文字起こし時に長いと、なぜか止まってしまうので適当な時間に分割します。
実行時間：１秒

!ffmpeg -i nvidia2023.mp3 -f segment -segment_time 20:00 -c copy out-%02d.mp3

Faster-Whisperで文字起こし

分割した音声ファイルから、そのまま文字起こしを行いました。
実行時間：約11分

from faster_whisper import WhisperModel

model_size = "large-v2"
model = WhisperModel(model_size, device="cuda", compute_type="float16")

for i in range(6):
    segments, info = model.transcribe(f"out-{i:02}.mp3", language="en", vad_filter=True, beam_size=5)

    with open(f"out-{i:02}.txt", "w") as f:
        for segment in segments:
            print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
            print(segment.text ,file=f)

分割範囲ごとにサマライズして連結

実行時間：約１分

import os
os.environ["OPENAI_API_KEY"] = "your OPENAI_API_KEY"

from langchain.chat_models import ChatOpenAI
from langchain.text_splitter import CharacterTextSplitter
from langchain.docstore.document import Document
from langchain.chains.summarize import load_summarize_chain

llm = ChatOpenAI()
text_splitter = CharacterTextSplitter()
chain = load_summarize_chain(llm, chain_type="map_reduce")

summary = ""
for i in range(6):
    with open(f"out-{i:02}.txt", "r", encoding="utf8") as out:
        text= out.read()
        texts = text_splitter.split_text(text)
        docs = [Document(page_content=t) for t in texts]
    summary += chain.run(docs)

ChatGPTで整形および日本語訳

実行時間：約１分
高価なGPT-4はAPIでなくChatGPTから利用します。😅

"日本語で要点を説明して： " + summary

出力結果：

NVIDIAのCEOであるJensen Huangは、ハードウェアアクセラレートされたレイトレーシング、AI処理、リアルタイムレンダリングとアニメーション能力を備えた新しいRTX GPUを台湾のライブイベントで披露しました。彼はまた、AIと音声認識を用いてデジタルアバターをアニメーション化するためのNVIDIA ACEを発表しました。Huangは新しいコンピューティングモデルの必要性とドメイン特化型スタックの重要性を強調し、その成長と採用を推進する開発者とエンドユーザーの役割を強調しました。

彼の基調講演では、大規模な言語モデルに対するアクセラレーションコンピューティングの利点を強調し、AIを高いスループットとスケールで生成するためには、複数のデバイスを統合し、コスト効率的なデータセンターを構築し、データセンターのすべての側面を再発明する必要があると述べました。最終的な目標はAI工場を構築することです。

NVIDIAは、2000億個のトランジスタと600GBのメモリを搭載したGrace Hopperというスーパーチップを開発しています。このスーパーチップはデジタル生物学や電子システム設計など、さまざまなアプリケーションに使用でき、最終的な目標は256のスーパーチップを接続して1エクサフロップスの計算能力を達成することです。

NVIDIAは、Google Cloud、Meta、Microsoftとのパートナーシップにより、144テラバイトのメモリを持つGrace Hopper AIスーパーコンピュータを発表しました。また、NVIDIA MGXというモジュラーサーバーデザイン仕様と、AIワークロードを任意のデータセンターに持ち込むことが可能な新しいEthernetスイッチ、Spectrum 4も発表しました。

さらにNVIDIAは、高性能コンピューティング機能をEthernet市場に提供する新しいタイプのEthernetスイッチを含むSpectrum 4システムを導入しました。また、NVIDIAのAI専門知識を集約したクラウドサービスであるAI Foundationを立ち上げ、メジャーなクラウドプラットフォームに完全に統合されたアクセラレーションコンピューティングのためのオペレーティングシステム、Nvidia AI Enterpriseを発表しました。また、NVIDIAはデジタルツインプラットフォームであるOmniverseを開発しており、WPPとパートナーシップを結んでOmniverseと生成AIに基づくコンテンツ生成エンジンを構築しています。

NVIDIAは、OmniverseとAIを使用したデジタル広告向けの生成AIコンテンツエンジンを導入し、製造向けのAIを教えるAI、ロボットを建設するためのリファレンスデザインの導入、そして工場とロボットの自動化を目指したクラウドと重工業への生成AIの拡大を発表しました。これらすべての発表は、NVIDIAがどのようにしてAIとコンピューティングの進化を推進し、その成果を業界全体に広めることを目指しているかを示しています。

まとめ

特段工夫していない（かなり乱暴な）処理をしたわりには、先日、実際にYoutubeで1.5倍速で１時間半かけて見た基調講演の要点は大体おさえられている気がしました。
あえて新製品に驚きたいときなど特別な場合をのぞけば、日本語サマリーにさっと目を通した後で、たとえば今回でいうとACE（Nvidia Avatar Cloud Engine for Games）のデモとか、DGX GH200のモジュールを手に取って、にんまりするファンさんとか、そのあたりを動画で堪能すれば時間を有効に使えそうです。
２時間弱の音声から、所要時間、15分程度で日本語サマリーを出力できるフローができて満足です。😊

おしまい。

この記事が気に入ったらサポートをしてみませんか？

２時間のYoutube音声を自動で要約 ～ NVIDIAのCOMPUTEX 2023基調講演

音声をダウンロード

Faster-Whisperで文字起こし

分割範囲ごとにサマライズして連結

ChatGPTで整形および日本語訳

出力結果：

まとめ

２時間のYoutube音声を自動で要約～ NVIDIAのCOMPUTEX 2023基調講演