見出し画像

Cotomoの仕組み・使用モデルを分析してみた

XやAI界隈で話題のCotomoについて、その仕組みを分析してみました。
※本記事は筆者の推測記事であり、Cotomoの運営会社とは一切関係はございません。事実と異なる可能性もありますのでご留意ください。


Cotomo公式サイトより

App Store URL
まだ使ったことがない人はぜひ使ってみて下さい。怖い程(褒め言葉)よくできています。

1. Speech-to-Text


【実験】
- Cotomoをバックグラウンド中にマイク使用 ⭕️
- Cotomoをバックグラウンドで起動中にiPhone搭載の音声入力を使用 ✖️
→ Cotomoが終了してエラー表示になる。

【結果】
iPhone搭載のSpeech Frameworkと予想。
Android版が遅れているのにも一定説明がつく。
ちなみにクラウドベースの文字起こしの候補として、GCP, Azure, AWS, IBM そしてWhisperがあるが、一般的に文字起こしは1時間100円超(WhisperならAPI経由でも50円だが。)とC向けサービスに組み込むには高額。

2. LLM


【実験】
①カットオフ時期の特定
- 2022/02/24のウクライナ侵攻 ⭕️
- 2023/02/06のトルコ・シリア地震 ⭕️
--------------知識の壁-----------------
- 2023/05/20 ゼレンスキー大統領が来日 ✖️
- 2023/08/08 ハワイ・マウイ島の山火事 ✖️
- 2023/10/28 ラグビーW杯、南ア優勝 ✖️
- 2023/11/17 サムアルトマン解任 ✖️

②直接聞いてみる
質問:「あなたはどこの会社のものですか?」
Cotomo「GPT-4という会社が作ったキャラクターだよ」

【結果】
gpt-4-1106-previewか。
知識のCutOffが2023年4月頃であること・GPT-4と自ら話したことからgpt-4-1106-previewであると予想できる。Azureは疎通までの時間が遅いのでOpenAI APIか。

3. Text-to-Speech


【実験】
OpenAI→ 不可
ChatGPT → 不可
GPT-4 → 時々不可
9日(ここのか)→ 発音可能

【結果】
VALL-E Xと予想(確度低め)
OpenAI, ChatGPT が読めなかったりすることと、抑揚の自然さ、ノイズの少なさから、GCP, Azureなど非TransformerベースのTTSでないことは予想できる。
現状のTransformerベースのOSSだと、VALL-E X / Style Bert Vits2 が有力と考えられるが Style Bert Vits2 は2023年12月に大きくアップデートが入ったことと、9日をうまく発音できないことから消去法でVALL-E X と予想できる。
Microsoftから元論文は出ているのでOSSに頼らなくても開発はできそう。

予想まとめ

以下のように予想
- Speech-to-Text: Apple Speech Framework
- LLM: GPT-4-turbo-1106-preview on OpenAI
- Text-to-Speech: VALL-E X

いいなと思ったら応援しよう!