見出し画像

時々、音声認識に挑戦

技術革新や生成AIはやはり気になり、知識が無いままに試したくなる時があって。Chat GPT3.5を使用。4oも時々は試しつつ。

今回は、ヘッドホンみたいなボタンで音声認識で会話みたいに挑戦してみることにした。

日本の金利に関して問いかけようとしたのだが…話しかけると始めは「近隣」となり、次は「近利」と中国語の熟語のように表記されていた。

お互いにミスは当然あり得るとしても、日本語を選択しているのになぁと少し残念な気持ちと、音としてアルファベットで認識しているんだろうなぁと。アルファベットから英語で理解して日本語に翻訳?なのかはわからないけど。

それから同音異義語で勘違いが無いかを確認せずに一方的に長文で返答してしまうし、ミスを認めたがらない性格?や文化を少し感じた。やっぱり言語ごとの熟語や文脈理解を些細な事として切り捨てながら、瞬時に話を繋いで乗り切る強気な姿勢というのか。指摘があれば後で学べば良いのだしみたいな。

主語や動詞や目的語や助詞、助動詞を慮って、活用の変化なしに語彙も慮っていく感覚というのは面倒くさいのかもしれないな。少なくともプログラミング上の世界ではそうなのかもしれないな(際限なく遅いレスポンスとかじゃなければ)。

この辺が、日本人が英会話苦手と繋がるのかもとも思ったり、でもいい加減な知識で適当に話を繋ぐのは怖いしなぁ。

今の所、要約やまとめはとても優秀だなとは思うが。

この記事が気に入ったらサポートをしてみませんか?