Cotomoの仕組み・使用モデルを分析してみた

2024年4月14日 02:28

XやAI界隈で話題のCotomoについて、その仕組みを分析してみました。
※本記事は筆者の推測記事であり、Cotomoの運営会社とは一切関係はございません。事実と異なる可能性もありますのでご留意ください。

App Store URL
まだ使ったことがない人はぜひ使ってみて下さい。怖い程（褒め言葉）よくできています。

1. Speech-to-Text

【実験】
- Cotomoをバックグラウンド中にマイク使用 ⭕️
- Cotomoをバックグラウンドで起動中にiPhone搭載の音声入力を使用 ✖️
→ Cotomoが終了してエラー表示になる。

【結果】
iPhone搭載のSpeech Frameworkと予想。
Android版が遅れているのにも一定説明がつく。
ちなみにクラウドベースの文字起こしの候補として、GCP, Azure, AWS, IBM そしてWhisperがあるが、一般的に文字起こしは1時間100円超（WhisperならAPI経由でも50円だが。）とC向けサービスに組み込むには高額。

2. LLM

【実験】
①カットオフ時期の特定
- 2022/02/24のウクライナ侵攻 ⭕️
- 2023/02/06のトルコ・シリア地震 ⭕️
--------------知識の壁-----------------
- 2023/05/20 ゼレンスキー大統領が来日 ✖️
- 2023/08/08 ハワイ・マウイ島の山火事 ✖️
- 2023/10/28 ラグビーＷ杯、南ア優勝 ✖️
- 2023/11/17 サムアルトマン解任 ✖️

②直接聞いてみる
質問：「あなたはどこの会社のものですか？」
Cotomo「GPT-4という会社が作ったキャラクターだよ」

【結果】
gpt-4-1106-previewか。
知識のCutOffが2023年4月頃であること・GPT-4と自ら話したことからgpt-4-1106-previewであると予想できる。Azureは疎通までの時間が遅いのでOpenAI APIか。

3. Text-to-Speech

【実験】
OpenAI→ 不可
ChatGPT → 不可
GPT-4 → 時々不可
9日（ここのか）→ 発音可能

【結果】
VALL-E Xと予想（確度低め）
OpenAI, ChatGPT が読めなかったりすることと、抑揚の自然さ、ノイズの少なさから、GCP, Azureなど非TransformerベースのTTSでないことは予想できる。
現状のTransformerベースのOSSだと、VALL-E X / Style Bert Vits2 が有力と考えられるが Style Bert Vits2 は2023年12月に大きくアップデートが入ったことと、9日をうまく発音できないことから消去法でVALL-E X と予想できる。
Microsoftから元論文は出ているのでOSSに頼らなくても開発はできそう。

予想まとめ

以下のように予想
- Speech-to-Text: Apple Speech Framework
- LLM: GPT-4-turbo-1106-preview on OpenAI
- Text-to-Speech: VALL-E X