日本語のトーン表記の方法を紹介します

2021年9月30日 21:06

この記事では、日本語のトーン表記の方法を紹介します。まず現在一般的に通用している説を紹介し、次に私が支持している比較的新しい説を紹介します。

記事内で単に「日本語」という場合、少なくとも終戦以降、現在に至るまで東京都（伝統的には23区内）を中心に使われているもののうち、比較的規範的または標準的とされる言語変種で、言語学では「東京方言」、または首都圏の伝統的な方言の違いが目立たなくなり共通化が進んだことに着目して「首都圏方言」と呼ばれているものを指します。ただし、地域を問わず、一般に「共通語」または「標準語」と呼ばれるもののうち、基本的な声の高さの使い方の仕組みが全国放送のテレビニュースと同じようになっているものは、この記事の内容が当てはまります。

そもそもトーンって？

トーンとは、言葉の全体または一部分に規則的に現れる声の高さの変動のことです。

トーンを使う言語として有名なのが中国語です。同じ「マ」という発音でも、上がり調子で発音するか、下がり調子で発音するか……などなど、声の高さの使い方によって表す言葉が変わることはご存知の方も多いと思います。

日本語の場合は、少し事情が違います。

日本語のトーン

通説の場合

通説では、日本語のトーンは中国語のような「一息の発音の間に声の高さがどう変わるか」ではなく「一つの言葉を発音している間に、息どうしの高さの関係がどうなっているか」によって決まっていると言われています。

例えば、「ハシデス」と発音する場合に太字で示す「高い」部分がどこにあるかが、「橋です」「端です」「箸です」のどれを発音しているかによって変わると言われています。

・ハシデス（箸です）
・ハシデス（橋です）
・ハシデス（端です）

さらに、ここから一歩分析を進めて、「基本的には同じ言葉の中では、声が下がるところが一箇所しかなく、一度下がったら上がることはない」また「どこで上がるかは言葉によってバラバラに決まっているのではなく、どこで下がるかが分かれば自動的に決まる」ため、次のように、声が下がるところだけを ] などの記号で示せば良い、と言われることがあります。この考え方をとると、先の例は次のように書き直すことができることになります。

・ハ]シデス（箸です）
・ハシ]デス（橋です）
・ハシデ]ス（端です）

現在、大学で言語学の授業を取っても、ネットで検索しても、本を読んでも、ほとんどの場合は上記のどちらかの分析が採用されています。

なお、本記事では「トーン」で統一しますが、一般には、このように言葉ごとに決まった声の高さの使い方のことを「アクセント」と呼ぶことが多いです。

余談：「アクセント」と「イントネーション」について
言語学では言葉ごとに決まった声の高さの変動パターンを「アクセント」、個々の発話ごとに話者の心情や態度などに対応して現れる声の高さの変動パターンを「イントネーション」と呼ぶことが多いです。私は言語学の中でも「生成音韻論」と呼ばれる分野の立場から考えることが多いのですが、生成音韻論では、声の高さであれ、その言語の発話を区別する声の使い方の特徴は、個人個人が単語帳のように言葉ごとにバラバラに記憶している情報と、すべての発話に適用される発音のルールの二つから構成されていると考えます。そして、実際の声の高さが単語帳のように記憶されていると考えるメリットはなく、ルールによって声の高さを決めるために必要な最低限の抽象的な情報だけが記憶されていると考えた方が理論的に好ましいと私は考えます。そのため、声の高さという、具体的で、現実に耳で感じることができる現象を「言葉ごとに決まっているか否か」で二分して「アクセント」と「イントネーション」と呼び分けるメリットはないと考えています。言語学では、そのパターンがどのような要素から構成されているかによらず、発話全体に現れる声の高さの変動を「イントネーション」と呼んでいる例もあり、そもそも、何が「言葉ごとに決まっている」かはどのような理論に基づきどのようなデータを分析するかによって変わる、理論的な主張です。理論的主張ではなく単に事実を述べる場合には声の高さの特徴をすべて「イントネーション」と呼ぶことを、言語学においても普通のこととして期待するか、少なくとも許容すべきだと考えています。

児玉説

比較的新しく、まだあまり知られていない説として、私がカジュアルに「児玉説」と呼ぶものがあります。これは元々は児玉望 (2008) 『曲線声調と日本語韻律構造』（リンクあり）という論文で発表された分析です。

通説では、ある言葉から別の言葉を区別するためには拍どうしの相対的な高さ関係こそが重要だと言われていますが、児玉説では、それぞれの拍を発音している間の声の高さの変動に注目します。（この記事では「拍」については解説しないので、大体ひらがな1文字に対応する発音のことだと思ってください。）

「一息」中の声の高さの変動に着目する点で、中国語における通説的な分析とよく似ています。言語学では、このように高さの変動に着目して記述するトーンを曲線声調といい、日本語における通説のように、複数の音の間の相対的な高さ関係に着目するトーンを段階声調または段位声調と言います。

つまり、通説では段階声調で説明しているところを、児玉説は曲線声調で説明していることになります。

そして、実際に言葉を話すときには、言葉は単に横に並んでいるだけではなく、どこかかどこまでが発音上のグループを構成するかによって、発話の意味が変わるということに注目し、日本語において発音における言葉のグループ関係を理解するためには、段階声調よりも曲線声調の方が便利であると主張します。

児玉説では、先の「ハシデス」の例は以下のように記述されます。太字の部分が下がり調子で発音されない部分、他が下がり調子で発音される部分です。

・ハシデス（箸です）
・ハシデス（橋です）
・ハシデス（端です）

児玉論文の中では、下がり調子で発音されない部分は nF という記号で表され、下がり調子で発音される部分は F という記号で表されます。この記号を使って先の例を書き直すと以下のようになります。

・nFFFF (箸です)
・nFnFFF (橋です)
・nFnFnFF (端です)

nF と F を使った表記は非常に見づらいと言われますが、もう少し見やすく表記できる方法もちゃんとあります。それを次の節で述べます。

私の説（教育ローマ字説）

私は基本的に児玉説を支持しています。ここで述べる私の説は、児玉説をベースにして「もう一歩」の分析を行ったものです。

段階声調において、すべての拍について高さを考えるのをやめて、下がるところだけをブラケットを使って示すように、児玉説をさらに一歩進めることで、次のような分析が得られます。

・ˈハシデス
・ハˈシデス
・ハシˈデス

先ほどと同様、太字になっているところが nF で、残りが F です。

英語のストレスなどにも使われる記号 ˈ （アポストロフィではありません）が、最後の nF の拍の直前に挿入されています。ここではこの記号はストレスを表すものではなく、あるところを起点として、その直後の拍までが nF であるという意味です。

このようにすることで、すべての拍について nF なのか F なのかを述べる必要がなくなるだけでなく、「箸です」「橋です」「端です」から、共通する「です」を取り除き、「箸」「橋」「箸」を次のように取り出すことができます。

・ˈハシ
・ハˈシ
・ハシˈ

一旦このような形が得られれば、後続する「です」は単に

・デス

とすることができ、同様に以下のような言葉についても、声の高さに関する情報は記載しなくて良いことになります。

・まで
・より
・しか
・だ
・も
・は
・が
・に

さらに、このような「声の高さに関する情報がない」言葉が複数続いた場合でも、そのまま並べるだけで正しい形を得ることができます。

・ハˈシニモ（橋にも）
・ハシˈニモ（端にも）

ただし、助詞の中でも「の」や「から」を含む少数の言葉については、声の高さに関する情報を記載する必要があります。なぜなら：

・ハシカˈラ（端から）❌ハシˈカラ
・ハシˈノ（橋の）❌ハˈシノ

（通説では「端です」などにおける「です」のところに見られる声の高さの下降を「です」側に仮託するため、非常にたくさんの言葉について声の高さの情報を記載する必要が生じてしまい、言葉が組み合わさったときの発音のルールも非常に複雑になります。）

このように、児玉説をベースに、「もう一歩」の分析を行うことで、言葉のカタチをとても簡単に表すことができます。

なお、私はこの記号 ˈ で表される謎の素性のことを普段「アクセント」と呼んでいます。

この記事を書こうと思ったきっかけ

私は日本語については普段「教育ローマ字」のサイト（リンクあり）とTwitter（リンクあり）で自分の考えを話していて、言語学的にきちんと説明すること必要があることは論文の形にするように努めているのですが、あえて note でこの記事を書こうと思ったのは、Sagishi さんという、押韻の研究をされている方が note でこの曲線声調理論を採用してくれているからです。

曲線声調理論はわかりやすい説明がネットにも本にもほとんどないので、Sagishi さんの記事がたくさんの人に理解されるためには、私が説明を書くべきだろうと考えました。

Sagishi さんの押印理論に関する記事は以下のリンクからアクセスできます。

例えば次の記事などです。

おまけ：曲線声調が必要な本当の理由

最初に通説として紹介した二つの分析方法のうち、後者を強硬に主張した言語学者として川上蓁がいます。

川上は、言葉が連なるときは声の高さは2段階ではなく、言葉がたくさん連なれば際限なく高さの段階も増えるということを指摘し、2段階の声の高さの記述を強く批判しました。

例えば、以下の例では、声の高さが下がるところが複数箇所あるとされます。

・キノ]ーモフラ]レタ（昨日も降られた）
（川上蓁 (1957)「準アクセントについて」[同 (1995)『日本語アクセント論集』pp. 92-113]）

先に挙げた例ではブラケットが一つだけだったので、声の高さも一応は2段階で書くことができましたが、ここではブラケットが2つあるので、少なくとも3段階の高さが必要です。従って、高いところを太字にするなどして表現することはできません。（「降られた」の最初の2拍の「ふら」を上昇的に発音することもできますが、ここではここを上昇的に発音しない場合を考えます。この上昇は「句頭の上昇」または「句音調」などと呼ばれるものですが、これがあるのとないのとでは、言語記号として別のものになります。平たくいうと両者は「違う発言」だということです。なお、以降も、句音調の有無による区別は扱いません。二つの言葉が連続する例を出すときは、二つ目の言葉の最初に声の上昇がないものとして考えます。）

声の高さを2段階で表現するときは、二つ目のブラケットの存在は無視されてしまうこともあるのですが、それを川上は誤った分析だと考えたのです。

しかし、曲線声調理論の立場からすると、川上の説も十分ではありません。曲線声調では、「昨日も降られた」は以下のように表現されます。

・キˈノーモ | フˈラレタ

本文で書いたときと同様、太字になっているところが nF で残りの部分が F です。（記号 ˈ は、縦線 | で区切ったところより左には「効かない」ということがわかります。）つまり、拍が高いかどうかとは関係なく、拍の内部の高さ変化として、「キノ」と「フラ」は nF であり、残りの部分が F であるということが言語記号としては重要です。

ブラケットで書かれる「下がるところ」というのは、 nF から F に切り替わる位置にほぼ対応します。そのため、先ほどのキノ]ーモフラ]レタという表記では、以下の可能性があります。

・キˈノ]ー | モフˈラ]レタ
・キˈノ]ーモ | フˈラ]レタ
・キˈノ]ーモフ | ˈラ]レタ

これらはすべて日本語で区別される発音で、正解は先ほど書いた通り真ん中の キˈノーモ | フˈラレタです。私たちはたまたま「キノーモフ」とか、一番目の環境で キˈノーと発音されるような単語を知らないので、つい他の二つを考えから排除してしまいがちですが、このような区切り位置の違いが言語記号の違いであるということは次のような例から分かります。

・ˈドレスニ | アˈワナイ（ドレスに合わない）
・ˈドレス | ニアˈワナイ（ドレス似合わない）

ここで分かりやすくするために区切り記号として使っている縦線の位置は、どの例でも F から nF に切り替わる位置に挿入されています。これが児玉論文で主張されていた、「発話における言葉のグループ関係を考えるときは曲線声調の方が便利である」ということです。（ここでいう「言葉のグループ関係」とは、専門用語では「韻律構造」と呼ばれるものです。）曲線声調による言葉の記述は、そのまま言葉のグループ関係の記述としても利用できるというわけです。nF と F の別さえ記載されていれば、次のように縦線を取り除いても、どこに縦線があったかすぐにわかります。

・ˈドレスニアˈワナイ（ドレスに合わない）
・ˈドレスニアˈワナイ（ドレス似合わない）

川上のように段階声調によって記述する場合は、この「区切り」は別途記載しなければなりません。

曲線声調が必要なもう一つの理由は、日本語では異なる2種類の「下降」が使い分けられていることです。

一つは、曲線声調で F と表現される、拍の内部における下降です。段階声調のブラケットによる表記では、nF から F に切り替わるところが表記されます。

もう一つの種類の下降は、次の「頭痛い」における「ま」から「い」にかけての下降です。

・アタˈマ↓イˈタイ（頭痛い）
・オナカˈ | イˈタイ（お腹痛い）

「頭痛い」は、nF と F だけで考えれば、「アタマイタ」の区間はすべて nF です。しかし、「ま」から「い」にかけて、声がガクッと低くなります。この nF が連続する区間で、言葉の区切り目に一定の条件のもとに現れる下降を、私は「境界下降」と呼んでいます。

段階声調では F であっても nFF の場合にしか表記しないことからもわかるように、2拍間の相対的な高さ関係しか表記しません。従って、「お腹痛い」は以下のように、nFF の後部の下降と nFnF の間に現れる下降が同じ表記になってしまいます。

・アタマ]イタ]イ

これが言語記号の正しい記述でないことは次の例からも明らかです。段階声調では全く同じ表記になってしまう以下の両者は同じ発音でしょうか？

・クサ]カッタ（臭かった）
・クサ]カッタ（草買った）

もちろん、両者は同じ発音ではなく、曲線声調と境界下降を組み合わせると、次のように異なる表示になります。

・クˈサカッタ（臭かった）
・クˈサ↓カッˈタ（草買った）

このように、通説に従った方法では日本語において区別される発音を表記しわけることができず、日本語の音韻論は曲線声調を取り入れる必要があります。

コーヒー代をください🥺