見出し画像

【もう語学学習は不要!?】リアルタイム文字起こし+翻訳AIツールをスマホで無料で使う方法 《オフラインでも利用可能です。》

みなさん、こんにちは。
チャエンです!(自己紹介はこちら

リアルタイム文字起こし+翻訳ができるAIツール WhisperKitがヤバいです。何より、これが無料でスマホで使えるのが半端ないです。

ドラえもんの道具「翻訳こんにゃく」が発明されたと言っても過言ではありません。

日本語の文字起こしは完璧で、英語への翻訳も即時なのでこれで英語話せなくても会話できます。

一応、英語→日本語リアルタイム表示も可能ですが精度に難ありです。

今回は、このアプリでできること技術面、使い方の解説を行います。

英語のミーティングが多いけど苦手な方や英語での情報収集を積極的にしたい方にとてもおすすめです。

ぜひ最後までご覧ください💡


1.このアプリでできること

冒頭でWhisperKitというAIツールと紹介しましたが、厳密にはWhisperKitというオープンソースのツールを使って作れらたアプリです。

WhisperKitは、OpenAIが開発したWisperをベースに、さらに使いやすく高性能なツールへと進化させた革新的なアプリケーションです。

1-1 WhisperKitの主な特徴

  1. 無料で使用可能:追加コストなしで高品質な文字起こしサービスを利用することができます。

  2. スマホで利用できる:WhisperKitはスマートフォンやタブレットに最適化されており、モバイルデバイスでシームレスに動作します。

  3. オフライン利用:通信環境が不安定な場所や、データ通信量を節約したい場合に特に便利です。

  4. 高速文字起こし:WhisperKitは高度に最適化されたアルゴリズムを採用しているため、音声データをリアルタイムで高速かつ正確にテキストに変換します。

  5. 文字のコピー:文字起こしされたテキストは簡単にコピーできるため、メモやレポート作成にも活用できます。また、テキストデータはさまざまな形式でエクスポートすることも可能です。

1-2 Whisperとは

WhisperはOpenAIが開発した汎用音声認識モデルです。多様な音声の大規模データセットで学習され、多言語音声認識、音声翻訳、言語識別を実行できるマルチタスクモデルでもあります。

Whisperの主な特徴は以下の通りです。

  1. 高精度:Whisperは大量のデータを学習した大規模な言語モデルを使用しているため、非常に高い精度で音声認識を行うことができます。

  2. 多言語対応:Whisperは多数の言語に対応しており、英語だけでなく、日本語、中国語、スペイン語など、さまざまな言語の音声を自動的に文字起こしできます。

  3. 長時間の音声にも対応:Whisperは長時間の音声データにも対応しているため、会議や講演、インタビューなどの長尺の音声を一括で文字起こしできます。

  4. ノイズへの耐性:Whisperは背景ノイズやマイク性能の variation に対して頑健に動作するため、雑音の多い環境での録音でも精度の高い文字起こしが可能です。

  5. オープンソース:Whisperはオープンソースプロジェクトとして公開されているため、開発者はWhisperを自由に利用・改変することができます。

Whisperは現在、音声データの有効活用を促進し、情報へのアクセシビリティを高めるツールとして注目されています。文字起こしの自動化により、議事録作成や字幕生成、音声検索などの作業が大幅に効率化されます。

また、多言語対応により、グローバルなコミュニケーションの促進にも貢献することが期待されています。

Whisperのアプローチ方法

2.技術面解説

WhisperKitは、OpenAIのWhisper音声認識モデルをAppleのCoreMLフレームワークと統合し、Appleデバイス上で効率的でローカルな推論を行うためのSwiftパッケージです。

2-1 開発企業

Argmaxは、2023年11月に設立されたスタートアップ企業です。ユーザーのデバイス上で、商用スケールの推論ワークロードを展開することを目指す開発者や企業をサポートすることを目的としています。

創業チームは、過去6年間Appleで業界をリードするパフォーマンスを持つOn-device推論アルゴリズムとソフトウェアの構築に取り組んできた実績があります。

その中で注目すべきプロジェクトには、Apple Neural Engine向けのTransformers、iPhoneで最速のStable Diffusion、Mixed-bit Model Compressionなどがあります。

2-2 WhisperKitの技術

Argmaxは創業からわずか2ヶ月後に、最初のプロジェクトとしてWhisperKitを発表しました。

WhisperKitは、Apple WatchのようなAppleの小型デバイスやiPhone 12のような古いデバイスでも、Whisper音声認識モデルと互換性のある10億パラメータ規模のTransformersをデプロイできるように構築された、リアルタイムパフォーマンスと拡張性に最適化されたツールとライブラリの集合体です。

このようなOn-deviceでの推論は、データのプライバシーや低レイテンシーが求められる場面で特に有用です。WhisperKitは、業界をリードするパフォーマンスで人気のファウンデーションモデルを提供し、無線経由のモデル配信から予測の後処理まで、モデルのライフサイクル全体を扱う垂直統合ソフトウェアのシリーズの第一弾です。Argmaxが構築する各フレームワークは、競争上の優位性としてOn-device推論を活用する態勢にある市場セグメントの、標準的な推論ワークロードに対応しています。

3.作成手順解説

💡 WhisperKitはApple storeにあるのではなく、TestFlightというアプリを経由してのダウンロードのため、現在iPhoneのみ使用可能です。

3-1 アプリのインストール

Whisperkitは、Apple storeにあるのではなくTestFlightというアプリをまず用意します。

ここから先は

1,046字 / 10画像

¥ 500

この記事が気に入ったらサポートをしてみませんか?