見出し画像

ぱくりを可視化する

高校生向けの研究室紹介ビデオをつくるにあたり、可視化研究の一分野である視覚的データ分析支援を紹介することを考えました。高校生にも分りやすい題材として考えたのが「ぱくりを可視化する」です。(紹介しているデータは実在のものではありません。)

大学の授業ではレポート課題を課すことがよくあります。COVID-19の影響で、オンライン授業が増えたこともあり、期末試験ではなくレポート課題で成績を付ける機会が増えました。学生には、課題に沿って自分自身でいろいろと調べ、自分の考えとともにレポートにまとめることを期待しているわけですが、提出されたレポートを読んでいると、似たような文章や図にでくわすことがあります。デジャブかなと思いながらも、遡って点検すると、二つの(時にはもっと多くの)レポートがほぼ(あるいはまったく)同一であるということがあります。「ぱくり」です。

このようなことが起る原因には大きく分けて二つが考えられます。ひとつは、レポートを書くときに、Webページなどからコピーしてくるというもので、複数の学生が同じWebページからコピーしてくれば、当然同じレポートになります。この場合は、出典がきちんと記載されていて、正しく引用されていれば良しとしましょう。

もうひとつは、友達同士でのコピーです。先に書いた友達にレポートを見せてもらい、ほぼそのままコピーして提出してしまうというものです。ちなみに、ぱくりに気付くのは、同じ「変な」言葉遣いをしているとか、同じ「変な」間違い方をしている場合が多いです。

分析作業の流れ

ここでは、このような「ぱくり」を見えるようにしようということです。可視化を利用した分析作業では、まず、「ぱくり」というものを数値化します。つぎに、数値化した「ぱくり」を可視化します。視覚的な表現で表すということです。そして、その視覚的表現を眺めて、「ぱくり」に関する洞察を得ます。満足する洞察が得られれば、そこで終りです。まだ満足していなければ、可視化に戻ります。時には数値化に戻って、違う方法で数値化するところからやりなおすこともあります。

「ぱくり」を数値化する

「ぱくり」を数値化する手法はいろいろありそうです。レポートが文字の列だと考えれば、文字列の類似性を利用することができます。もちろん、もう少し意味に踏み込んで類似性を判断することもできます。ここでは、類似度の数値化には深入りせず、適当な手法で、二つのレポートの類似度を数値化できたとしましょう。

表で全体を表す

ひとつのクラスに学生が50人いて、全員がレポートを提出したとすると、50×49/2=1,225組の類似度が計算できます。これを表で表すと、下のようになります。

図1: 50人分のレポートの類似度を表した表

ひとつの行やひとつの列がそれぞれ一人の学生に対応しています。そして、行と列の交点に二人のレポートの「類似度」が数字で表示されています。対角線上は自分自身との比較ですので空欄にしています。この表は対角線に関して対称なので、対角線の右上あるいは左下のどちらか一方だけでもすべての組み合わせを表現できます。ですが、ここでは両方を表示しています。つまり類似度を表す数字が2,450個配置されています。

色をつける(視覚的に表現する)

さて、この表に50人分のレポートの「類似度」はすべて表現されているのですが、これを眺めていても、よく分りません。そこで可視化です。「類似度」に応じて色をつけることにしました。

図2: 類似度を色でも表した表(青: 類似度小 ー 赤: 類似度大)

数値を色でも表現するということです。ここでは小さい値に青を、大きい値に赤を割り当てました。こうすることで数字よりも直感的に類似度が見えます。赤が濃いところは、「ぱくり」の可能性が高い組だと言えます。

さらには、ひとつひとつの類似度だけでなく、類似度がなす構造のようなものも見えます。中央よりも少し下のあたりに青い水平線が見えます。中央よりも少し右のあたりに垂直線も見えます。この水平線と垂直線は対角線上で交差しているので、ある一つ(一人)のレポートの他との類似度を表しているわけですが、このように青い線になっているということは、他のどのレポートにも似ていないということです。他のレポートとは違うオリジナリティの高い文章になっているのだろうと推測できます。ただし、このようなレポートは課題とは関係のないことを書いているということもあるので、それについてはレポートを実際に読んでみなければ分りません。

並べ替える(見え方を変える)

ここまでは縦方向と横方向に学生を番号順に並べていましたが、ここで並べ方を替えましょう。

図3: 類似度が高い行や列が近づくように並べ替えた表

これは類似度の高い学生(レポート)が近くになるように並べ替えたものです。類似度の高い学生同士ができるだけ縦方向で近付くように並べ替え、横方向の並び順もそれに揃えています。そうすると、赤い数字が対角付近に近付きます。こうすることで、類似度の高いレポートのかたまりが見えてきました。いくつかのグループがありそうです。

一部に着目(詳細を確認)

これだけを見ると、ぱくりが大量発生しているように見えますが、この赤いかたまりがすべてぱくりとは限りません。類似度の数値化のしかたにも依りますが、その点は注意が必要です。このあたりで、実際の作業としては、レポートの文面を目で比較するなどが必要になるでしょう。ここでは、仮にある値よりも大きいものは「ぱくり」だと仮定して、もう少し踏み込んでみましょう。

図4: 設定した閾値よりも類似度が高いものだけに色をつけた表

ある値よりも大きいものだけに色をつけました。やや短絡的ですが、これらがすべて友達同士のコピーだとすると、コピーをした/させた関係に色をつけたことになります。このような関係はネットワークとして表現できます。

連結図を描く(表現形式を変える)

色をつけた部分を抽出して生成したネットワークを見てみましょう。連結図を描くツールに入力すると、下のような図が得られます。

図5: 類似度の高いレポート(学生)の関係を表した連結図

黄色の点が学生(レポート)で、それらをつなぐ黒い線が、コピーをした/あるいはさせた関係を表します。さきほどまでの表による表現(行列表現)とはかなり違って、まさに学生間のつながりのように見えます。

線の太さで向きを表す

黒い線はコピーをした/させた関係を表すだけで、向きは分りません。Webで回収するレポートには提出日時がデータとして記録されています。これを利用すると、先に提出された方から、後に提出された方に向きをつけることができます。線をテイパー(だんだん細くなる線)に変えました。太い方が先に提出されたもの、細い方が後で提出されたものです。

図5: レポートの提出日時の前後関係を線の太さで表した連結図(太い方が先に提出)

配置でも向きを表す

さらに、細い方が右に向うように、つまり左から右に時間が流れるように、向きを揃えてみましょう。

図6: レポートの提出日時の前後関係を配置でも表した連結図(左の方が先に提出)

なんとなくコピーの流れのようなものが見えてきました。ただし、ここでの、「左から右に時間が流れる」は一つのリンクに着目した局所的なものです。そして、これは、提出日時に基づく向きを表しているので、実際にコピーをした/させた関係を正確に反映しているわけではありません。

ぱくりに対する実際の対応としては、この後、レポートの本文をよく点検して、さらに学生本人に事情を聞いて、... というように、いろいろと続きます。それでも、このような可視化はぱくりの把握に役立ちそうです。

上では静止画だけで紹介しましたが、「連結図を描く」から後の動きは動画もあります。

まとめ

「ぱくり」を題材に視覚的データ分析を紹介しました。ここでは、類似度を一覧できるように可視化した色付きの行列表現と、ネットワークを可視化した連結図を紹介しました。これらの手法は、情報可視化入門でも紹介しています。

ネットワーク図のリンクの向きが右に向うように揃えるためには、「マグネティック スプリング アルゴリズム」を使用しています。


この記事が気に入ったらサポートをしてみませんか?