マガジンのカバー画像

技術関連記事

3
技術関連記事のマガジンです。
運営しているクリエイター

#SeamlessExpressive

現代版ほんやくコンニャクは実現可能なのか?オンデバイス翻訳アプリの実現に向けた検証記録-その1

約10日ほど前にOpen AIからGPT-4oが発表された。 簡単に要約すると、GPT-4oの売りはエンドツーエンドの処理。つまり、入力と出力が同じニューラルネットワークによって処理されるため、従来の「音声認識からテキストに変換し、そのテキストから音声を生成する」というプロセスから、「音声から音声を直接生成する」プロセスに変わった。これにより、レスポンスが非常に速くなった。 また、特に視覚と音声の理解に優れています。と記載されている通り、音声だけでなく画像ファイルの推論も強