Claude 3.5 sonnetを使いこなそう

2024年7月18日 16:22

Claude 3.5 sonnetを使いこなそう - つみかさね
https://3yokohama.hatenablog.jp/entry/2024/07/18/161405

Claude 3.5 sonnetは優れた生成AIです。情報の整理、まとめ、要約、文章の整形など大抵のことはこなしてくれます。そこで普段見ているホームページの情報を利用して、記事、論文、などの創作物の原稿に使う方法を提案します。

まず、必要な資料の掲載されているホームページを収集する。そしてそれらのページを「印刷」で「PDFで保存」を用いてPDFに変換します。（それ以外でも良い）そしてホームページが複数ページに渡るときは、それぞれPDFにしておいて、「pdf_as」で結合して1つのpdfに変換します。多分資料収集する時は長い文章に、また複数のページに渡る場合がおおいのでpdfの結合を覚えておくと便利です。

そして出来上がった合成したPDFをClaude 3.5 sonnetに読み込ませます。読み込んだPDFに対して関連の質問とか、まとめとか、要約の作成とか、全文書き出しとか、です、ます調に統一するとか、文章の整形など自分の意図したことを指せます。大抵応じてくれます。また相当ながいPDFファイルでも問題なく読み込めますので、詳しい情報が得られます。

情報過多の時代、ネット上の記事を一つ一つ読んでいく時間も気力もありませんね。すると要約、ポイントだけにした資料にしておくと後でNotebookLMで整理することも簡単ですね。それらの原稿を元にブログ、ホームページの記事を書いたりできますね。
Claude 3.5 sonnetはいろいろなことが出来るので、考えたことを実行して、使い方のノウハウを見つけて下さい。パソコンで作業していると時計を見るのが面倒で、Claude 3.5 sonnetに「時計を作成して」と指示すると10秒ほどで時計を作成して時刻を表示して呉れます。疲れたときには簡単なゲームを作ってもらうというのも面白いですね。ソフトウェアを作る場合は「Artifacts」をONにしておくこと。

「pdf_as」定番のPDF加工ソフト

Gemini 1.5 Proの音声認識率を改善する方法について、以下のポイントが挙げられます：
プロンプトの最適化:
音声認識の精度を高めるために、適切なプロンプトを使用することが重要です。例えば、以下のような指示を含めることで精度が向上する可能性があります:
音声の書き起こしを行うこと
原文を変えないこと
特定の専門用語や固有名詞のリストを提供すること
事前情報の提供:
音声に登場する人物や状況についての情報をあらかじめプロンプトに含めることで、認識精度が向上します。例えば、「この音声は副市長と税務課長が参加する市役所における総務委員会の録音データです」といった情報を事前に与えることが効果的です。
モデルの選択:
Gemini 1.5には、ProとFlashの2つのバージョンがあります。Proの方が高性能ですが、処理に時間がかかります。一方、Flashは処理が速いですが、複雑な日本語の文章では正確に聞き取れないこともあります。用途に応じて適切なモデルを選択することが重要です。
人間による微調整:
完全な自動化は難しいため、AIによる文字起こし後に人間が確認し、必要に応じて修正を加えることで、最終的な精度を向上させることができます。
音声品質の改善:
入力する音声の品質を向上させることも重要です。ノイズの少ない環境で録音を行い、クリアな音声を提供することで、認識精度が向上する可能性があります。
継続的な学習と更新:
Geminiは定期的に更新されているため、最新バージョンを使用することで、認識精度が向上する可能性があります。Googleの公式情報や最新のアップデートを常にチェックすることをおすすめします。
これらの方法を組み合わせることで、Gemini 1.5 Proの音声認識率を改善し、より正確な文字起こし結果を得ることができるでしょう。ただし、完璧な認識率の達成は現時点では難しいため、用途に応じて人間による確認や修正を併用することが望ましいです。

現在の認識率の状況
2021年のベンチマーク調査によると、主要な音声認識サービスのエラー率は以下の通りでした:
Amazon: 18.42%
Microsoft: 16.51%
Google: 15.82%
これらの数字は、80-85%程度の認識率を示しています。ただし、100%の精度を達成している音声認識システムは現時点では存在しません。
認識率に影響する要因
音声認識の精度には以下のような要因が影響します:
アクセントや方言の理解
騒がしい環境での音声認識
専門用語や固有名詞の認識
話者の発話スピードや明瞭さ
最近の進歩
AIアルゴリズムと技術の発展により、音声認識の精度は向上しつつあります。例えば:
AssemblyAIが開発したConformer-1技術は、ノイズの多いデータでもエラーが少なくなっています。
Conformer-2サービスでは、さらに高速化と性能向上が図られています。
スマートフォンでの音声認識の利点
スタンフォード大学の研究によると、スマートフォンでの音声認識は手動入力よりも3倍速く、より正確であることが示されています。また、Gboardなどのスマートフォンのキーボードアプリは、高速で正確な音声入力機能を提供しています。
音声認識技術は急速に進歩しており、今後さらなる精度向上が期待されます。ただし、完璧な認識率の達成にはまだ課題が残されています。

生成AIをいろいろ試してきて2024.7現在、下記のような使い方に向いているように思う。
生成AI比較
下記のようなことが得意です。（無料版で）
1.Gemini1.5Pro
音声データからの文字起こし
2.Claude3.5sonnet
画像データから文字抽出（観光地の案内板などの写真等）
PDFファイルから要約、分析、整形等、長文が得意。日本語が美しい。
3.Chatgpt　Gpt-4o
Gptsが使えるメリット（論文から検索、小説を書く等）
総合的には優れている。
4.perplexity.ai
リアルタイムな情報、ターゲットを絞った検索、型名検索、古いパソコン、パソコン関連の機種などの使い方の検索。

Claude 3.5 sonnetを使いこなそう（Feature Previewをクリック）

この記事が気に入ったらサポートをしてみませんか？