見出し画像

【9.結論と参考文献】現代短歌のテキストマイニング――𠮷田恭大『光と私語』(いぬのせなか座)を題材に

承前

9-1.結論

9-1-2.私たちの狙い(再掲)

 私たちは「5-1.枠組みの整理」で、2つの目標のうち、「B.価値を持ちうる文章が生産-消費される「条件」を明らかにすること。短歌「らしさ」を作り出す、「読み・書き(リテラシー)」の分解と再点検」を狙いとする分析を行った。先行例から5つの視点――1.個性、2.定型性、3.独自性、4.作為性、5.時代性で抽出したうえで、私たちが持ちうるデータと手法で解ける問題は、1-2.文体分析、2-2.連作単位の分析、2-3.歌集単位の分析の3通りだと述べた。思いがけないことに、それ以外の視点からも、得られた示唆がある。結論としてまとめておきたい。

9-1-2.得られた示唆

1.個性

1.個性(または私性)。ある作品とその作者のパーソナルデータ(略歴、発言、文体、作歴、歌風、声色、容貌など)を紐づけて鑑賞することの是非。

1-1.デモグラフやサイコグラフなど、著者に帰属されると言われるもの。

分析対象としなかった。

1-2.用語や話法、品詞使用の偏りなど、作品を構成する文字列と、その文字列が従う規則群から抽出できるもの。

次の3つの分析から、次のようなことが分かった。

「8.形態素解析による語彙の計量」。この歌集には名詞(1,151)が、動詞(579)の約1.98倍出現する。助詞(1,065)は名詞の92%ほどで、複合名詞や体現止めの分量が示唆される。形容詞(121)や副詞(103)は、名詞10回につき1回使われるかどうか。感動詞(1)や接続詞(4)、連体詞(7)はごく少ない。
「9.語の出現頻度とその予測」。上位20%を占める語の出現頻度は全体の69.0%を占める。この歌集には、「いる」(53)が「する」(32)の1.6倍、「なる」(13)の4.0倍多く使われている。この歌集には、行為とその結果・変化よりも、持続や推移、状態を描く歌が多い。主体・客体の存在を言う「いる」の用法は少ない。また、「ない」(50)が「ある」(26)の1.9倍出現する。「否定」「不能」「不在」「回避」「禁止」「義務」などの用法で用いられる。この積み重ねが、この歌集のトーンを形づくっているのだろう。この歌集では、何かが失われ、消えている。作中主体は、明示されない制度に禁じられ、義務づけられる。作中客体には、できないことがあり、したくないことがある。そのような場面がしばしば描かれる。
「13.品詞構成の比較(他ジャンルとの)」。この歌集は、ベストセラー、国会会議録に似て、名詞が少なく、動詞と形容詞が多いと分かった。やはり韻文(短歌・俳句・詩歌)にも似ていた。けれども、他の韻文と比べると、動詞が多く、名詞と形容詞が少なかった。常識的な理解に反して、韻文(詩歌の言葉)は国会会議録(政治の言葉)やベストセラー(通俗の言葉)によく似ている。『光と私語』がそれらと似た性質を持つことは興味深い。ポピュラーであるとは言い切れないまでも、読み上げやすい文体であるとは言えるだろう。

1-3.作中主体の姿勢や言葉が発せられる向き、暗示される対話または独白の関係。

次の3つの分析から、副次的に示唆が得られた。

「9.語の出現頻度とその予測」。この歌集には一人称と三人称がほとんど出現しない。代わりに「あなた」(27)が多用される。それも、この歌集の読者に呼びかけるのではなく、作中主体の意識や視線の届くところに「いる/いない」客体として描かれる。「あなた」は都市生活の一場面のなかで、同伴したり、同居したり、同定される対象としてある。「人」(17)は「老人」(7)と「恋人」(5)と群衆または一般名詞の集合であり、たいてい写生の被写体として出現する。
「10.「あなた」の共起語ネットワーク」。第2章「ト」でくり返し書かれる一文の影響で、「携帯」「アラーム」「デフォルト」「枕」が近くにある。
「11.単語ベクトルと類似度の学習」。「あなた」は「わたし」と少し近くて、「私」からは遠い。「私」は「恋人」よりも「電車」に近い。「外国」は遠い。「死ぬ」のと同じくらい遠い。さらに、「あなた」から「私」を引き算したら分かったのは、「私」という語は、「存在(ある)」や「修辞(アネクドート)」に近づくような用法では使われていないのかもしれない。少なくとも、「あなた」ほどには。


2.定型性

2.定型性。日本語の韻律は七五調(と、それを構成する2音・3音の組み合わせ)で成り立つとされる。長歌、旋頭歌、短歌、連歌、俳諧、俳句、川柳、歌謡など、膨大な歌群がその傍証だと言われる。ここに、不定型や未定型、無型を持ち込む素地が生まれる。

2-1.文単位の定型性

2-1-1.句切れの単位。

分析対象としなかった。

2-1-2.字あまり、字足らず、破調、句またがりなど、作品の一部に不規則や不調和を持ち込むもの。

「8.形態素解析による語彙の計量」。この歌集は約15%が「短歌じゃないかもしれない文章」で出来ている。このうち、「短歌じゃないかもしれない文書」は、0字から60字弱までばらついた分布をとる。それに比べて「短歌」は、20字前半から30字後半の間でより緊密に分布する。このことから、次の仮説が考えられる。日本語で書かれた短歌は、20字強から40字弱に大量に密集しているのかもしれない。

2-1-3.難読字、約物、記号、外国語、改行、ルビなど、初読の可読性を下げたり、作品全体の音数を算定しづらい処理を施すもの。

「8.形態素解析による語彙の計量」。1点だけ異常値を示したのは、英単語だけを用いた1首「Smoking kills. Smokers die younger. Smoking harms you and others.」(65字)だった。この1首は七五調で読みづらく、日本語訛りで無理に「すもーきん/きる、すもーかー/だい、やんがー/すもーきん、はーむ/ゆー、えん、あざー」とでも読めば、31音に収まる。そうして苦戦しながら読み終えると、この歌集を読むとき、私たちは、読み手の音律意識によって「作品か否か」を判定していることに気づかされる。

2-1-4.全体の音数を31音から逸脱させるもの。

「8.形態素解析による語彙の計量」。15語前後の行(文書)が100程度と最多で、10語前後が60弱、20語前後が40弱ある。その他の語数で作られたものは少数だった。1首あたりの語数を10語未満としたり、20語以上にすると、いっぷう変わった、珍しい作品が作りやすいと言えるのではないか。

2-2.連作または部立、章単位の定型性
2-2-1.語義や主題の選択がもたらす定型性。

「14.品詞率を用いた指標(MVR)による文書分類」。名詞率とMVR(用比率/相比率)の2軸で分析したところ、第1章、第2章、第3章ともに、特定の象限に偏った分布はしていないけれど、章ごとに、連作が進むにつれて、おおむね名詞率が高まると分かった。「ト」は韻律のない、ト書きのような単文が多く、動き描写的な文章だとの判定に整合する。

2-2-2.物語の起伏や抑揚、中断、展開など、構造に関するもの。

「12.極性分析による作品の変遷」。全体として、肯定値が高い連作が多く、著しく否定値の高い連作は少ない。
 各章の初め(「わたしと」「大きい魚」「ともすると」)で盛り上がりが起こる。1章(「わたしと〜」から「部屋から〜」)と2章(「大きい魚〜」から「象亀〜」)は高い肯定値で始まり、段々盛り下がる。3章(「ともすると〜」から「明日の〜」)は、どれも肯定値が高く、また、徐々に盛り上がる。
 第1章の後半から第2章にかけて、徐々に否定値の高い1文が増えてくる。「ト」の序盤は、否定値の高い1文が連続する。その他の連作では、数文に1回の間合いで否定値の高い1文が挿入される。その間合いが、一定のリズムを作っている可能性がある。
 もっとも、否定的なセンチメントの歌が集中的に出現するわけではなく、肯定/否定の起伏が、より細かい単位で生じている。1冊のなかで、極性値の起伏が数多く生じている。
 数え方次第だが、十数個の「やま」が作られている。大まかにみて、1文目から150文目にかけてゆるやかに下降し、そこから230文あたりにかけて、大きな盛り上がりが続く。230文あたりで急落があって、240文目に向けて、もうひと盛り上がりがある。

2-3.歌集単位の定型性。

2-3-1.連作または部立、章単位の分析を、歌集単位に適用することで得られるもの。

「8.形態素解析による語彙の計量」。この歌集は約15%が「短歌じゃないかもしれない文章」で出来ている。
「11.単語ベクトルによる類似度の学習」。「時期」(あと、毎週、今日)や「移動」(しみる、する、横たわる、近づく、東西)にまつわる語が、「人」という字と近いものだと判定された。「犬」は場所(屋上、漁船、池袋、ローソン)とできごと(会話、火事、しかるべき)に似ている。もの(借り物、指紋)にも。ほかの動物や乗り物が出てこないことにも気づかされる。「部屋」は、向きと勢いを持つ動詞(換える、問う、生きる、溢れる、向く)と似ていて、ひとのからだ(右脳、髪、右手)にも近い。それにしても、「訃報」と「部屋」はなぜ似ているのか。
「9.語の出現頻度とその予測」。頻出する助詞・助動詞をみると、「の」(253)がもっとも多く、この歌集の総文書数(240)を上回る。「に」(159)「を」(147)が続く。「が」(107)「は」(103)はやや少ない。「と」「も」はより少ない。「、」が「が」「は」より多いことにも注目される。この歌集は、総じて人称の省略がしばしば行われるけれど、主題ないし主語の提示はあり、連体修飾で1首の骨子を作り、連用修飾で記述対象を指定する。そういった作りをしているのだろう。

2-3-2.作家単位の分析。

分析対象としていない。

2-4.歌群または共同体単位の定型性。

2-4-1.ジャンル内での比較。

「9.語の出現頻度とその予測」。助詞・助動詞の分布は、さらなる検証に値する。「の」(253)がもっとも多く、「が」「は」の総和(210)を上回るのはなぜか。この歌集の特徴か、現代短歌に共通して見られる性質か。「に」「を」「で」の多さは、この歌集が観察と描写に重心を置く(と見られる)ことと関わりがあるか。「と」「も」が少ないことは、この歌集が、事物の並立や共同、併存をことさらに強調しないことの傍証となるのか。

2-4-2.ジャンル外との比較。

「15.異なり形態素比率と語彙の豊かさ」。「文体診断ロゴーン」が異なり形態素比率を求めたテキストは、40%-60%区間にほとんどの文芸書が含まれている。『光と私語』は51.5%で、中間的な位置づけにあった。ここから2つのことが言える。まず、『光と私語』は、とくに奇を衒って語彙を大きく見せたり、少なく見せようとしていない。スタンダードな語彙が選ばれていると言ってよい。


3.独自性

3.独自性。つきすぎ、寄せすぎ、盛りすぎ、ありきたり、月並みなどに知悉し、熟慮して避ける/踏まえることで、その手順や着想に独自性がある/ないと言われる。このとき、私たちは何を評価しているのか。

3-1.何らかの定型性に対する準拠度の比較。

分析対象としていない。

3-2.複数の個性を比較した場合の、一致度の比較。

分析対象としていない。

3-3.複数の個性から抽出される、傾向や反復との比較。

分析対象としていない。


4.作為性

4-1.その共同体で認知醸成や合意形成がなされた手法。

分析対象としていない。

4-2.他のテキストとの距離。ある単語を用いない、ある話法を多用する、句の展開に既視感があるなど。

分析対象としていない。

4-3.作為性の見えやすさ/見えにくさ。

分析対象としていない。


5.時代性

5-1.同時代性。ある時間区分のなかで共通性が見出だされる場合。反-現代を含む。

「13.品詞構成の比較(他ジャンルとの)」。名詞率は、白書、法律、新聞、広報紙(自治体)が高い。いわゆる「硬い文章」だと言ってよいだろう。逆に、日常談話は名詞率がもっとも低い。ベストセラーが国会会議録によく似た性質を持ち、雑誌や新聞よりも日常談話に近いことも注目に値する。よく売れるテキストには、読み原稿や、話すように書かれた言葉が多いのかもしれない。
 用比率は、広報紙(自治体)がもっとも低く、韻文がもっとも高い。大まかにみて、用比率が上がるほど、名詞率は下がる(Yahoo!ブログ、日常談話など例外はあるが)。「硬い、書き言葉」になるほど動詞が減り、「やわらかい、話し言葉」になるほど動詞が増えるようだ。ひとまず、「韻文は動詞が多い」とも言えるだろう。さらに、「動詞を増やせば韻文らしくなる」と言えるかは、検証する価値があるだろう。
 書籍、雑誌は、平均並みの相比率だった。広報紙(自治体)、白書、法律が低い。新聞も、教科書も低い。逆に、Yahoo!ブログ、国会会議録、韻文が高い。ベストセラーが(書き言葉では)もっとも高い。また、日常談話が他に群を抜いて高い。

5-2.通時代性。しばしば限られた空間範囲のなかで、ある時間区分をまたいだ共通性が見出だされる場合。反-伝統を含む。

「15.異なり形態素比率と語彙の豊かさ」。「文体診断ロゴーン」が、異なり形態素比率の比較対象とした文書群の両極には、政治演説と哲学論考がある。政治演説は、ごく短いテキストのなかで話題を次々と変える分、異なり語数も増えてくる。哲学論考は、論理命題の展開によって同語反復が連続する。異なり語数が少ないのは、そのためだろう。

結論

結論1:「話す」ように「描く」
 この歌集は模範的な構成と良心的な展開を持つテキストだ。連作ごとに明らかなまとまりがあり、終盤に向けて名詞が増え、肯定極性値が高まる。字数・語数の分布からして、定型性への挑戦は控えめで、異なり形態素比率からみて、スタンダードな語彙が選ばれていると言ってよい。品詞含有率からは、ベストセラーや国会会議録といった「話すように書く言葉」に近く、他の韻文よりも有り様描写的であると言える。

結論2:いくつもの「なさ」が続いて「いる」
 この歌集には「ない」と「いる」が多用される。作中では何かが失われ、消えている(否定、不在)。作中主体は、明示されない制度に禁じられ、義務づけられる(禁止、義務)。作中客体には、できないことがあり、したくないことがある(不能、回避)。

結論3:「あなたの部屋」に届く「光と私語」
 頻出する「あなた」をはじめとする被写体が、都市生活の一場面のなかで、作中主体の意識や視線の届くところで、持続し、推移している。そのあり様を描く。単語ベクトル平面のなかで、「あなた」は「わたし」と少し近くて、「私」からは遠い。「私」は「恋人」よりも「電車」に近い。「外国」は遠い。「死ぬ」のと同じくらい遠い。「部屋」は光が差し込む空間であり、配達物(乗り物の模型、不在通知、朝刊、便箋)が「届く」宛先でもある。


9-2.参考文献

企画構想の参考

1.深澤克朗「和歌集における計量分析と機械学習による判別」(2017): https://www.jstage.jst.go.jp/article/jsik/27/2/27_2017_015/_article/-char/ja

2.Andrew J. Reagan, Lewis Mitchell, Dilan Kiley, Christopher M. Danforth, Peter Sheridan Dodds, The emotional arcs of stories are dominated by six basic shapes: https://arxiv.org/abs/1606.07772

3.ジョディ・アーチャー, マシュー・ジョッカーズ(著), 西内啓(監修), 川添節子 (訳)『ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム』(2017): https://www.nikkeibp.co.jp/atclpubmkt/book/17/P51840/

4.竹田正幸, 福田智子, 南里一郎, 山崎真由美・玉利 公一, 和歌データからの類似歌発見(2000): https://www.ism.ac.jp/editsec/toukei/pdf/48-2-289.pdf

5.フランコ・モレッティ『遠読――世界文学システムへの挑戦』(みすず書房, 2016)(原著は2013年)

応用事例の参考

1. 栗山暢「コンピュータによる文字列データ処理の一モデルとしての短歌自動作成装置」(言語文化論究 (13) 2001 p.89~107): https://ndlonline.ndl.go.jp/#!/detail/R300000002-Ib00001203242-00

2. 佐々木あらら「星野しずる」(2008): http://sasakiarara.com/sizzle/

3. いなにわ, せきしろ「偶然短歌」(2014)(書籍は飛鳥新書より刊行): https://twitter.com/g57577, http://www.asukashinsha.co.jp/bookinfo/9784864105064.php

4. hakatashi「機械学習で石川啄木を蘇らせる」(2016)[(初出)](https://sunpro.io/c89/pub/hakatashi/introduction)
: https://sunpro.booth.pm/items/274585

5. 短歌研究社, NTTレゾナント, 野口あや子「恋するAI歌人」(2019)(特集記事は短歌研究社「短歌研究」に掲載)

論調分析の参考

1. 雲嶋聆「泥土か夜明けか――人工知能と短歌の未来」(短歌研究, 2018)

2. 鵜飼康東「君は人工知能に勝てるのか」(短歌, 2017)(『情報社会の伝統詩』(関西大学出版部, 2018)所収)

3. 斎藤寛「AIと短歌をめぐって」(短歌, 2018)(論考特集 現代短歌の論点2018)

4. 加藤英彦「AIという頭脳=加藤英彦」(毎日新聞社, 2018)[(出典)](https://mainichi.jp/articles/20180618/ddm/014/070/036000c)

5. 小島ゆかり, 坂井修一, 森井マスミ, 永田紅, 中島裕介「人工知能は短歌を詠むか」(短歌年鑑, 2018)

6. 薮内亮輔「AIと「読み」/歌壇賞について」(短歌, 2018)

7. 坂井修一, 斉藤斎藤「現代社会と短歌 第二部 短歌システムの崩壊と再生」(短歌研究, 2018)

8. 中辻真, 奥井颯平, 野口あや子, 加古陽「歌歴1年半でここまで上達! 歌人AI(人工知能歌人)の歌力」(短歌研究, 2018)

9. 短歌研究編集部「〈マジ地獄…〉「AI歌人」が詠む短歌、驚きのお手並み拝見」(現代ビジネス, 2019)([出典](https://gendai.ismedia.jp/articles/-/66266))

10. 中島裕介「(角川)短歌年鑑 平成30年版」における座談会「AIは短歌を詠むか」で使用した資料について」(はてなブログ, 2017)[(出典)](http://yukashima.hatenablog.com/entry/2017/12/09/204217)

業界動向の参考

1.出版科学研究所「出版月報 2018年12月号」(2018): https://www.ajpea.or.jp/book/2-1812/index.html

2.角川メディアハウス「雑誌広告料金表」(2019/11/26参照): https://mediaguide.kadokawa.co.jp/img/upload/1471508845.pdf

3.OECD「スキル・アウトルック2019」日本語サマリー(2019): https://www.oecd-ilibrary.org/sites/d88551be-ja/index.html?itemId=/content/component/d88551be-ja

4.光森裕樹「短歌結社の5年を数える」(tankaful.net, 2014): http://tankaful.net/24

5.光森裕樹「短歌の新人賞に応募しているのは誰か?」(tankaful.net, 2014): http://tankaful.net/16

6.光森裕樹「歌集出版市場と通天閣の折りたたみ方」(tankaful.net, 2015): http://tankaful.net/32

7.角川文化振興財団「短歌年鑑 2019年版」(2018): http://www.kadokawa-zaidan.or.jp/zasshi/tanka-yearbook/

8.小池博明「初句切れの表現構成-古今和歌集から後拾遺和歌集まで-」(2013): https://www.hyogen-gakkai-official.org/pdf/98/98_31-40.pdf

9.ちゃんぜろ[(Twitter)](https://twitter.com/zr_4)「57577 Maker」: http://chanz.sakura.ne.jp/tanka/

10.石岡卓也「むげんミクうたと深層学習」(2018): https://www.slideshare.net/TakuyaIshioka/mugen-miku-utaanddeeplearning

11.太田瑶子「深層学習による俳句の自動生成」(2018): https://library.naist.jp/mylimedio/dllimedio/showpdf2.cgi/DLPDFR014448_P1-41

12.米田航紀, 横山想一郎, 山下倫央, 川村秀憲「LSTMを用いた俳句自動生成器の開発」(2018): https://www.jstage.jst.go.jp/article/pjsai/JSAI2018/0/JSAI2018_1B2OS11b01/_pdf/-char/ja

13.山元啓史「和歌用語シソーラスの開発と用語空間分析に関する基礎研究」(2014-2018): https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-26370530/

事例調査の参考

1.阿久津良和「自然言語処理は黄金時代を迎えつつある--マイクロソフトの研究幹部が語る現状」(2019): https://japan.zdnet.com/article/35137778/

2. はこだて未来大学(松原仁研究室・他)、星ライブラリ、新潮社「きまぐれ人工知能プロジェクト 作家ですのよ」(2012-): https://www.fun.ac.jp/~kimagure_ai/, https://www.hoshishinichi.com/project/1.html

3. automationed insights「Word Smith」(2014): https://automatedinsights.com/wordsmith/

4. 記事の自動生成に見る「人間記者」の価値(2014): https://webronza.asahi.com/national/articles/2014072800008.html

5. 鳥海不二夫,稲葉通将,大澤博隆,片上大輔,篠田孝祐,西野順二「人狼知能」(2014): http://aiwolf.org/

6. 朝日新聞社・レトリバ「自動見出し生成API」(2016): https://marvin.news/6589

7. spectee「spectee」(2016): https://spectee.co.jp/service/spectee/

8. NTTレゾナント「教えて!gooのAIオシエル」(2016): https://oshiete.goo.ne.jp/ai/

9. 電通・静岡大学(狩野芳伸研究室)「AI Planners MAI & AICO」(2017): https://dentsu-ho.com/articles/5128

10. 日本経済新聞社・東京大学(松尾豊研究室)「決算サマリ―」(2017): https://pr.nikkei.com/qreports-ai/

11. 鈴木潤, 永田昌明「単語埋め込みベクトルの圧縮法」(2017), https://www.ntt.co.jp/journal/1709/files/JN20170917.pdf

12. 朝日新聞社, レトリバ「朝日新聞単語ベクトル」: https://cl.asahi.com/api_data/wordembedding.html

13.NTTコミュニケーション科学基礎研究所「日本語語彙体系 CD-ROM版」(2011): http://www.kecl.ntt.co.jp/icl/lirg/resources/GoiTaikei/index.html

14.文体診断ロゴーン(2010): http://logoon.org/

分析手法の参考

直接の参考

1.Tomas Mikolov, Ilya Sutskeverm Kai Chen, Greg Corrado, Jeffrey Dean, Distributed Representations of Words and Phrases
and their Compositionality(2013): https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

2.Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, Efficient Estimation of Word Representations in Vector Space(2013): https://arxiv.org/abs/1301.3781

3.丸山岳彦, 柏野和佳子, 田中牧郎『現代日本語書き言葉均衡コーパス』「利用の手引 第1.1版 第3章 サンプリング」(2015) https://pj.ninjal.ac.jp/corpus_center/bccwj/doc/manual/BCCWJ_Manual_03.pdf

4.小椋秀樹『日本語話し言葉コーパスの構築法』「第3章 形態論情報」(2006): https://pj.ninjal.ac.jp/corpus_center/csj/k-report-f/03.pdf

5.金明哲「[連載]フリーソフトによるデータ解析・マイニング第60回 統計的テキスト解析(5)~統計法則と指標~」(2008): https://mjin.doshisha.ac.jp/R/60/60.html

6.冨士池優美・他「長単位に基づく『現代日本語書き言葉均衡コーパス』の品詞比率に関する分析」(2011)

7.高村大也, 乾孝司, 奥村学「スピンモデルによる単語の感情極性抽出」(情報処理学会論文誌ジャーナル, 2006)

先行手法の概観

1.加藤治郎『短歌レトリック入門―修辞の旅人』(風媒社, 2005)

2.樋口耕一『社会調査のための計量テキスト分析―内容分析の継承と発展を目指して』(ナカニシヤ出版, 2014)

3.金明哲『テキストアナリティクス (統計学One Point)』(共立出版, 2018)

4.小林雄一郎『ことばのデータサイエンス』(朝倉書店, 2019)

5.鈴木大慈「機械学習の概要」(応用数理, 2018): https://www.jstage.jst.go.jp/article/bjsiam/28/1/28_32/_article/-char/ja

6.持家大地「自然言語処理と統計・機械学習」(統計数理研究所 2018): http://chasen.org/~daiti-m/paper/MLwakate-2018-nlp.pdf

7.黒橋禎夫「深層学習による自然言語処理の進展」(日本翻訳ジャーナル, 2019)

8.Richard Socher, Deep Learning for Natural Language Processing Lecture 2: Word Vectors(2017) : http://cs224d.stanford.edu/lectures/CS224d-Lecture2.pdf

9.小浜聖子, 大槻明「日本の詩の言語表象にみられる教養的知識と経験伝達の関係性の検証」(情報知識学会誌, 2012): https://jglobal.jst.go.jp/detail?JGLOBAL_ID=201302234288200969&rel=0

10.田貝和子「日本語の計量分析」(秋田工業高等専門学校研究紀要, 2012)

11.安部清哉「日本語語彙の歴史的構造変化とそこから見た和漢 2 文体の類型指標」(韓美卿編『日本語学・日本語教育』, 2013)

12.蓮井理恵「動詞・形容詞・副詞における語種比率(RJF)を用いた文体分析――公人のスピーチ・「天声人語」・女性ファッション誌記事を事例に――」(学習院大学日本語日本文学, 2014)

13.浅石宅真「テキストの特徴を計量する指標の概観」(日本図書館情報学会誌, 2017)

14.近藤明日子「語種率・品詞率からみる近代文語文の通時的変化」(日本語学論集, 2019)

利用したデータセット、オープンソースソフトウェア及び参考文献

1.𠮷田恭大『光と私語』(いぬのせなか座, 2018): https://inunosenakaza.stores.jp/items/5c1da4862a28624c2c4d68ca

2.国立国語学研究所「現代日本語書き言葉均衡コーパス」BCCWJ品詞構成表(Version 1.1)(2015):
https://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu.html

3.国立国語学研究所「国立国語研究所報告 8  談話語の実態」(1955): https://repository.ninjal.ac.jp/?action=repository_uri&item_id=1238&file_id=43&file_no=1

4.新山祐介, 形態素解析ツールの品詞体系: http://www.unixuser.org/~euske/doc/postag/

5.森田一, 黒橋禎夫, juman++: http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++

6.Megagon Labs, GiNZA: https://megagonlabs.github.io/ginza/

7.Google, google sentiment analyzing: https://cloud.google.com/natural-language/docs/analyzing-sentiment?hl=ja

8.Facebook, fastText: https://fasttext.cc/

9.van der Maaten, Laurens, and Geoffrey Hinton. Visualizing Data using t-SNE. J. Machine Learning Research 9, 2008, pp. 2579–2605.

10.asari(2018): https://github.com/Hironsan/asari

11. 東京工業大学奥村・高村研究室: http://www.lr.pi.titech.ac.jp//~takamura/pubs/pn_ja.dic

12. Dmitriy Selivanov「text2vec」(2018): http://text2vec.org/

その他に既知の関連書籍

1.司代隆三(編著)『短歌用語辞典』(飯塚書店, 1993)

2.小高賢(編著)『現代短歌の鑑賞101 (ハンドブック・シリーズ)』(新書館, 1999)

3.佐佐木幸綱(監修), 大島史洋, 来嶋靖生, 三枝昂之, 高野公彦, 米川千嘉子, 河野裕子, 小高賢, 島田修三, 内藤明, 篠弘, 馬場あき子(編)『現代短歌大事典』(三省堂, 2000)

4.穂村弘『短歌の友人』(河出書房新社, 2000)

5.枡野浩一『かんたん短歌の作り方』(筑摩書房, 2014)

6.俵万智, 一青窈『短歌の作り方、教えてください』(KADOKAWA, 2014)

7.東直子, 佐藤弓生, 千葉聡(編著)『短歌タイムカプセル』(書肆侃侃房, 2018)

8.ベン・ブラッド(著), 坪野圭介(訳)『数字が明かす小説の秘密 スティーヴン・キング、J・K・ローリングからナボコフまで』(DU BOOKS, 2018)

9.ラリー・ブルックス(著), シカ・マッケンジー (訳)『工学的ストーリー創作入門 売れる物語を書くために必要な6つの要素』(フィルムアート社, 2018)

10.科学技術・学術審議会学術分科会 人文学・社会科学振興の在り方に関するワーキンググループ「人文学・社会科学が先導する未来社会の共創に向けて(審議のまとめ)」(文部科学省, 2018)




この記事が気に入ったらサポートをしてみませんか?