![見出し画像](https://assets.st-note.com/production/uploads/images/140709056/rectangle_large_type_2_4a28d3a8ff728718b744bee9db8935a2.png?width=1200)
日本語特化サービスが欲しくなる理由
文学フリマに出品する作品の原稿をChatGPTに渡して簡単な文章解析させようとするのだけれど、
私:この文書で使われている頻度の高い単語を上位5つまで抜き出してください
この文書で頻度の高い上位5つの単語は以下の通りです:
1. **は** - 49回
2. **と** - 46回
3. **い** - 32回
4. **が** - 29回
5. **の** - 24回
これらは日本語の基本的な助詞や動詞の一部であり、文章の構造を形成する重要な要素です。
・・・・(^_^;)
私:単語は名詞に限定します
`janome`という形態素解析ツールがインストールされていないため、名詞を抽出することができません。他の方法で名詞を抽出する必要があります。Pythonの標準ライブラリや利用可能な他のツールを用いて名詞を抽出しますので、少々お待ちください。
で、生成されたコードをコピって自分でやったほうが結果としては早かった
文書内で頻度の高い名詞の上位5つは以下の通りです:
1. **という** - 20回
2. **では** - 20回
3. **アーアー** - 18回
4. **この** - 13回
5. **しかし** - 13回
ただし、これらの単語は必ずしも名詞ではなく、接続詞や引用句としても使われている可能性があります。名詞のみを抽出するためには、より高度な日本語形態素解析ツールの利用が必要です。
日本語処理に優しいサービス プリーーーーズ!
日本の会社がこぞって日本語特化LLMを作っている。それは嬉しいことだけど、言語モデルと、それを使ったサービスとの間には、ふっかーい谷があり、2つを混同してはいけない。この谷を超えられるところがどのくらいあるのか。頑張ってほしい。
この記事が気に入ったらサポートをしてみませんか?