見出し画像

かまみく検索Ver2

気づき

  • 検索語を分割して、それぞれについて検索しようとしているが、その言葉が分割されたときに一文字になってしまうと検索できなくなる

    • 一文字を検索しない制限を回避する必要がある。

  • 単純にコメント数が多い動画がランキング上位に来てしまう。

    • 一つの動画あたりの検索ヒット割合にするべき

      • コメント数またはインデックス数あたりの、検索ヒット数

      • 文字の長さにもよるので

    • 二つの評価方法を作成して比較する

      • ヒット数/インデックス数  本命 文章の長さを分母と分子で打ち消せるから

      • ヒット数/コメント数

  • 各VIDEOIDごとにnodecountを合計したい。辞書型の扱いに苦労している。かなり遠回りしているコードになっていると思う。

    • 一旦すべて分解してから一つの辞書にまとめよう

  • 検索結果の順位は難しい

    • noderatio・・・分母となるnodecountが小さい、つまりコメントが少ないほど大きくなってしまう

    • nodecount・・・コメントが多いほど大きくなる

    • hitcount・・・コメントが多いほどヒットする回数も増える。

      • つまり、どんな検索結果が「良い」のかを決めるのが困難である。

      • noderatioの下限を決める方法はあまり使えないかも。なぜなら下限を決める根拠がない。コメントが多いならその検索結果を無視するというのは道理が通っていない。

      • これはいうなれば、データの問題である

        • 検索に使えないコメントであっても、コメントの数が多いと検索結果を汚染する


この記事が気に入ったらサポートをしてみませんか?