Poetics研究所

人文知と諸科学の知見をクロスオーバーさせながら言語・音声などコミュニケーションに関わる…

Poetics研究所

人文知と諸科学の知見をクロスオーバーさせながら言語・音声などコミュニケーションに関わるAIを開発する、Poeticsメンバーがお届けするnoteです。日々の研究結果やまとめをみなさんにシェアし、技術や感情についての理解を深めて頂けたら幸いです。

マガジン

  • 音の三大要素について

    Empathの研究者、山岡さんがやさしくかつ丁寧に音について解説しています。音声ファイルもあるので実際に耳で聞いて体感できます。

  • 音声/音質の評価方法

  • 研究者が書く!論文まとめ

    Empathの研究者が興味深い論文をまとめています。1つ読むごとに、雑学が1つ増えるかも!

  • 『統計の歴史』を読む

    西田さんが読んだ本「統計の歴史」から、まとめられているnoteです。人はいつから統計をやってきたのか?このように個別のデータを収集して全体的な傾向をつかむということを、人はいつからできるようになったのか?一緒に探求しましょう!

  • 学会報告

    Empathの研究者が参加した学会の報告をまとめています。日頃、研究者ではない限りなかなか参加することのない、学会の様子を垣間見ていただければと思います!

最近の記事

学会報告|第150回日本音響学会(2023)@名古屋工業大学

2023年9月26日〜28日で行われた日本音響学会にて、「情動発声:ヒトと機械の自然な音声コミュニケーションに向けて」というスペシャルセッションが開かれました。私はそこで「感情アノテーション方法の比較と提案」というタイトルで発表をしてきましたので、その内容をご紹介します。 研究の背景Affective Computingという分野  感情を情報工学的に扱う研究には、たとえば感情認識やセンチメント分析などがあります。こうした研究はAffective Computing(感

    • 2023年3月の研究会・学会を振り返って

      この記事を書いたのは 山岡さん. 早いもので4月も今週末で終わりですね😲 まだ今年を振り返るには早すぎるかもしれないですが、個人的には今年に入ってプライベートでは大きなライフイベントがあったりと、いい意味で忙しかったです。 皆様はどんな4カ月間でしたでしょうか? プライベートは置いておいて本記事では、2023年3月は研究会・学会に参加発表する機会があり、参加報告と学会の雰囲気などをお伝えできたらと思っています。 音声研究会 一番初めに参加した研究会は、2023年2月2

      • JamRoll×ChatGPT (前編)

        JamRollとは?「JamRoll」はオンライン商談・IP電話での架電を自動で録画/録音・文字おこし・分析する商談解析AIです。Zoom、Google Meet、Microsoft TeamsおよびZoomPhoneに対応しており、商談や架電内容を自動でレコーディングおよび文字おこし、また商談後に商談内容を自動でSFAに転記することで営業や社内会議の管理の負担を激減することができます。 2022年6月の正式販売よりスタートアップから大企業まで多くの企業様に導入いただいてお

        • 絶望してアカデミアを離れた哲学院生が今の会社に出会ったら希望がもてた話

          このnoteを書いたのは西田さん. ……なんだかライトノベルのようなタイトルになってしまいましたが、今回は私が大学院を離れる決心をして就職先を探し、そして今の会社Empathと出会うまでのことについてお話しようと思います。 人の「心」を測る研究 私は学部から修士課程まで、社会学を専攻していました。具体的には、大規模な質問紙調査から得られたデータを使って統計的分析を行い、社会と人の「心」の関係を探る研究をしていました。ある程度社会学についてご存知の方にとっては、社会心理学

        学会報告|第150回日本音響学会(2023)@名古屋工業大学

        マガジン

        • 音の三大要素について
          7本
        • 音声/音質の評価方法
          2本
        • 研究者が書く!論文まとめ
          3本
        • 『統計の歴史』を読む
          3本
        • 学会報告
          2本
        • 心理学の再現性問題
          4本

        記事

          音の三大要素について 第七回

          この記事を書いたのは 山岡さん. 0. 前回の内容前回は音色の概念と音色を定量的に評価するために扱われる指標について紹介しました。 まだご覧になってない方はぜひ下のリンクから読んでみてください。 1. この記事から分かることラウドネスの測定の歴史的背景(1900年代)とその課題 2. ラウドネス以前の記事でも紹介した通り、ラウドネス(loudness)は音の主観的な大きさに対応する指標です。 本節では、ラウドネスの計算方法の考え方について紹介していきます。 ラウドネス

          音の三大要素について 第七回

          音の三大要素について 第六回

          この記事を書いたのは 山岡さん. 0. 前回の記事の内容前回は、pythonを用いて音高を算出しました。 まだご覧になってない方はぜひ下のリンクから読んでみてください。 1. この記事から理解できることは?音の音色とは 音の音色の計測に用いる指標の一例 2.音の音色とは音楽や楽器を聴く際に、音色という言葉をよく耳にすることがあるとおもいます。音色とは、音の三大要素の一つで、音楽や楽器などの音質を表現するときに用いられ、意味合いとしては、同じ音でも楽器や演奏者によって微

          音の三大要素について 第六回

          人文系学問とコンピューターサイエンスの融合をめざすリーダーのご紹介

          Empath研究所のジンです。 先日Empathの共同代表、山崎はずむについて新しい記事が公開されました。 プロダクト開発のみならず、在野研究を積極的に取り入れる山崎のバックグラウンドや考え方を紹介していますので、ぜひお読みいただければと思います。 この記事に共感してくださったら、ぜひ多くの方にシェアしていただければ幸いです。

          人文系学問とコンピューターサイエンスの融合をめざすリーダーのご紹介

          Speaker Diarization From Nemo|第二回

          この記事を書いたのは 山岡さん. 0. 前回の記事の内容前回は、 Speaker Diarizationとはどのような技術か Speaker Diarizationの評価基準 Nemoの提供しているモデルがどのようなモデルか 2者間の音声データにおける精度 について紹介しました。 まだご覧になってない方はぜひ下のリンクから読んでみてください。 1. この記事から理解できることは?3者間の音声データにおける精度 予測速度 2. 3者間の音声データにおける精度

          Speaker Diarization From Nemo|第二回

          新しい日本語大規模音声コーパス

          0. この記事から理解できることは?ReazonSpeechとは何か 1. ReazonSpeechとはReazonSpeechは、レアゾン・ヒューマンインタラクション研究所によって開発され、2023年1月に公開された、世界最高レベルの高精度日本語音声認識モデルおよび世界最大(19,000時間)の日本語音声コーパスです。 「ReazonSpeech」の特徴として以下が挙げられます。 以下それぞれの特徴について詳しく見ていこうと思います。 1.1 音声認識モデル 表1

          新しい日本語大規模音声コーパス

          Speaker Diazrization From Nemo | 第一回

          この記事を書いたのは 山岡さん. 0. この記事から理解できることは?Speaker Diarizationとはどのような技術か Speaker Diarizationの評価基準 Nemoの提供しているモデルがどのようなモデルか 2者間の音声データにおける精度 1. Speaker DiarizationとはSpekaer Diarizationとはいつだれが話したかを推定する問題です。 つまり、図1に示してある通り、入力は音声データの信号で、出力が音声区間のタイ

          Speaker Diazrization From Nemo | 第一回

          NVIDIA Nemo| 第1回

          この記事を書いたのは 山岡さん. 1. この記事から理解できることは?NVIDIA Nemoとは何か NVIDA Nemoで出来ること 2. NVDIA Nemoとは?NeMoは、会話型AIアプリケーションを作成するためのオープンソースのPythonツールキット。 NeMoツールキットは、再利用可能なコンポーネントであるNeural Modulesを用いて、会話型AIのための複雑なニューラルネットワークアーキテクチャを研究者が簡単に構成することが出来ます。(この点がめ

          NVIDIA Nemo| 第1回

          Empathと私のこれまでとこれから|その2

          このnoteを書いたのは西田さん. 前回の記事はこちら 文系研究者として一般企業で働く道を開拓したい そんなEmpathで今年7月から仕事をしてみて、ますます「自分のような文系研究者が企業で研究しながら働けることって稀なことなんだな」と思うようになりました。もちろん私は、(特に人文学系の)研究者の就職先がないという問題について、仕方がないものだと諦めてはいません。この問題の解決の一助にできればという思いもあり、人文知を活かせる仕事ってなんだろうと、最近考え始めました。

          Empathと私のこれまでとこれから|その2

          2023年 新春の挨拶

          2023年の年始にあたり、謹んで新年のご挨拶を申し上げます。 昨年は、新型コロナウイルスの脅威、ウクライナ戦争の勃発、サプライチェーンの乱れ、急激な円安など、世界的に事業を取り巻く環境が大きく変化しました。このような激動の1年の中ですが、弊社の新しく始めた取り組みの一つであるNoteへの投稿を閲覧、いいねをして下さり大変感謝しております。 技術革新もとどまるところを知りません。基盤モデル(Foundation Model)と呼ばれる大量・多様なデータから高い汎化性能を獲得

          2023年 新春の挨拶

          Empathと私のこれまでとこれから|その1

          このnoteを書いたのは西田さん. こんにちは。最近英語の文法を学びなおしている西田です。 このnoteを定期的に更新するようになったのが今年の5月でしたが、気がつけばもう12月も後半になりましたね。 私の場合は中学生くらいからでしょうか、毎年12月にはその年を振り返り「あぁ今年もあっという間だったなぁ」と思うようになったのですが、今年もまた時間が過ぎ去る速度(?)が過去最高を記録しました。みなさんはいつからこのような「ジャネの法則」あるいは「光陰矢の如し」を実感するよう

          Empathと私のこれまでとこれから|その1

          Empath研究所を支えるなかまたちについて

          はじめまして、Empath研究所の編集をしている、Empath PR担当のジンです。 今日は毎回の学問的なBlogから少し離れて、Emapthの仲間たちをご紹介したいと思います。特に、この半年間にジョインした、研究・開発にかかわるメンバーについていくつかインタビュー記事があるので、ぜひnoteを通じてEmpathを知ってくださった方にもご注目いただければと思います。 エンジニアの川上さん・ロペさん Head of R&D 松本さん 全てお読みいただいた方はきっと「おな

          Empath研究所を支えるなかまたちについて

          音声/音質の評価方法 第2回

          この記事を書いたのは 山岡さん. 0. 前回の記事の内容前回の記事まだご覧になってない方はぜひこちらから読んでみてください。 1. この記事から理解できることは? 一対比較法について 一対比較法における一意性の検定 2. 一対比較法とは一対比較法とは… 全ての評価対象系により出力される1音声について、取り得る2つの組合せ全てに対して、音声を比較し優劣を判定する方法です。 そのため$${n}$$個の評価対象系($${A_1}$$, $${A_2}$$,…,$${A_

          音声/音質の評価方法 第2回