LangChainでYouTube動画の字幕を抽出する

海外サービスを見ていると文字ではなくYouTubeで説明資料を用意していることが散見され、説明を理解するのに視聴に時間がかるので、何とかならないかと思っていたら、
langchainにYoutubeLoaderというものがあり、字幕を取得できました。

from langchain.document_loaders import YoutubeLoader

def get_document(url):
	loader = outubeLoader.from_youtube_url(
		url,
		add_video_info=True,
		language=['en', 'ja']
	)
	return loader.load()

url = 'YOUTUBE_URL'
resp = get_document(url)
print(resp[0].page_content.split(' '))

ご参考まで。



この記事が気に入ったらサポートをしてみませんか?