見出し画像

危険度「低」でも要注意!!重複チェックツールを使う上での落とし穴とは

こんにちは。ウィルゲートでシステムの要件定義やお問い合わせを担当しているなつめです。システム系の業務に関わらず、運用や事務作業もやっています。

ところで皆さんは、「重複コンテンツ」チェックに苦労していませんか?Googleも明確に「こういうのが重複コンテンツ!」と定義していないので、困りますよね。できれば何とも重複しないほうがいいのはわかりますが、世の中にあるコンテンツに一切被らないオリジナルの記事をつくるのはおそらく無理だけど、ペナルティのリスクは減らしたい…。
参考:重複コンテンツの作成を避ける

今回のnoteでは、ウィルゲートの「重複チェックツール」の設計に携わった立場から、Web上にある様々なチェックツールを使う前に、ちょっと考えてみてほしいことをお伝えしようと思っています。

本題の前に

せめて、どれくらい重複しているのか知りたい、という時に役立つ重複チェックツールはさまざまな会社が提供しています。この記事では主にツールの見方についてお話ししますが、大前提として「どの会社のツールもリスペクト」していると宣言しておきます。どの会社さんも工夫して努力してつくられているので。

ただ、「このツールで赤くなったからダメだ」と心に決めている人がいる、と聞いたことがあるので、それは違うんじゃないかというお話をしたいと思います。重複ツールの仕組みを考える上でいくつかのツールを使わせてもらいましたが、全ての場合で絶対的な判定ができるツールはまだないのでは、と思っています。

重複率や警告の有無で一喜一憂するのは待ってほしい

重複チェックツールでは重複率や警告表示がありますが、その数値や表示の意図を理解せずに使用するのは控えたほうがいいと思っています。なぜなら、意図がわからないと結果の良し悪しを正しく判断できなくなってしまうからです。

重複率、類似率などツールによって表記は異なりますが、「危険かどうか」を可視化するために基準として表示される数値はだいたいどのツールにもあります。しかし、ツールAでは危険と出ていたが、ツールBでは危険と出なかった、ということももちろん起きます。それは、それぞれのツールによって「率」の出し方や警告の基準が違うからです。ツールごとに重要と考える基準が異なるため、単純に比べることはできません。しかし、なぜ「危険」と示されているのかをある程度理解すれば、出てきた結果をもっと効率的に使えるようになります。

どのツールでも「率」は文字数によって左右される

重複率を見る上で重要なのに、意外とはっきり説明されていないこと。それが、「どのくらいの文字数で検査することを想定しているのか」ではないでしょうか。どのツールでも基本的にそうだったのですが、けっこう大事なことなのに使う人任せになっているなぁ、と感じています。

なぜ文字数が大切なのか、例を挙げてみます。
1万文字の記事と200文字の記事をそれぞれ検査した時、同じ100文字の重複でも1万文字は1%、200文字は50%になります。おそらく、1%の重複はどのツールでも「危険」とは出ないでしょう。しかし、100文字がまるまるコピーされた文章であれば、見逃したくないですよね。
つまり、ある程度は文字数を気にしないと、結果を読み間違えている可能性が高いということです。ちなみに、手前味噌ですがサグーワークスの重複チェックでは文字数の範囲を決めて使っています。

画像1

8000文字の記事が1サイトからのコピペで成り立つわけではない

私は、重複を見つけるためには、「内容」ごとにチェックすることが有効であると考えています。
私がライターだったら、「コピペはよくない」を念頭において書くので、それぞれの見出しに必要な要素を調べたりして書くことになると思います。つまり、見出しごとに別の記事を参考にしたり、場合によってそこからコピペをしたりすることのほうが多いのではないでしょうか?その場合、8000文字をどーんと重複チェックにかけても重複率は分散しますよね。重複先が部分ごとに違うため、全体の率は薄まってしまいます。
もしかしたら8000文字の記事が1つのサイトからコピペして作られることもあるかもしれませんが、そんな”豪快”な記事を書いてしまうライターとは、お別れを検討したほうがよさそうですね…。また、その場合ならどんなツールでも一発で警告を出してくれると思います。

ただ、公開されているツールを使って「内容ごとのチェック」を実現しようとすると、何回も検査が必要となるため手間が倍増し、現実的ではないかもしれません。
幸いなことに、サグーワークスでは投稿部分がシステムとつながっているため、人の手間をかけずに実現できています。1記事まるっと重複チェックをかけるよりは、かなり精度の高い状態にできていると思っています。

まとめ

小難しい話をしてしまいましたが、ツールごとに信じている要素が異なる文字数によって大きく差が出る1記事を一度にチェックしても意味がないことがある、という3点をお伝えできていれば幸いです。

最後に宣伝ですが、記事作成サービス、サグーワークスの重複チェックツールはこのあたりも考慮してつくってあります。今までは社内スタッフが重複チェックを行いお客さまに記事を提供していました。

この重複チェックツールもご利用いただけるよう、サグーワークスでは新しく「発注者承認オプション」をリリースし、併せてご利用いただきやすいキャンペーンを開始しました!記事作成で、コピペじゃないか不安!自分の目で確かめたい!といった不安をお持ちの方がいらっしゃれば、ぜひご利用ください!

▼キャンペーン特典
見積金額から20%OFF

▼期間
2020年3月31日 まで

▼クーポンコード
SW2020

▼ご利用にあたっての制限
「発注者承認オプション」をご利用の場合が対象です。
発注額や回数に関わらず、何度でもお使いいただけます。


サグーワークスと発注者承認オプションのご利用方法

作りたい記事のキーワード・大まかな内容やテイストをもとに発注フォームにご入力いただければ、1週間程度で記事をご提供します。
(発注が数記事までの場合)

画像2

発注フォーム一番下の記事承認の項目で「お客様ご自身でチェックする」を選択いただくと、発注者承認オプションをご利用いただけます。
リリースキャンペーンのクーポンコードも、合わせてぜひお使いください!

▼発注はこちらから

▼サグーワークスについて、より詳しい説明はこちら


この記事が気に入ったらサポートをしてみませんか?