英語の学術論文をChatGPT-4で執筆する際の手順メモ


はじめに

英語の論文をGPT4に執筆させた際の手順を記します。
普段からChatGPTを使っている人にとっては、当たり前のやり取りしかしていないのですが、意外と使えていない方がnon-AI分野では多いので、丁寧にプロンプトを示していきます。

(ワークショップで解説する必要が出てきたので、そのためのメモ書きです)

GPT-4に論文は書けるのか?

ゼロから書かせるのは難しいですが、日本語の下書きを英訳するのは得意で、少なくとも筆者が満足する品質のテキストが得られます。

GPTを使って執筆をするメリット

  • DeepLやGoogle翻訳と違い、英文のスタイル(e.g., 論文調)を明示的に指示できるので、翻訳のクオリティが高い

  • 日本語ネイティブにとっては、日本語で書いた方が圧倒的に楽※

  • スペルミスや文法ミスを犯さないので、校正の手間も減る。※

  • 基本的に翻訳タスクしか行っていないので、GPTが過去の類似文章を出力してしまう(≒意図せぬ剽窃)のリスクは低い

これまで、3報の論文をGPT-4を使って書きました。9割以上はGPTの文章をそのまま使ったと思います。個人的には、もう手放せないレベルの便利さです。

※筆者は帰国子女でない日本人としては英語ができる方(TOEIC>900点、英語論文>40報、独・米留学3ヶ月)ですが、論文を書くと、しばしば査読者から「英語が下手」との指摘を受けます。一方、GPT-4に書かせた論文ではそのような指摘を受けなくなりました。

GPTを使って書いた論文

https://www.tandfonline.com/doi/full/10.1080/27660400.2023.2260300


Step1 日本語の下書きを作る

ポイント

  • 英語への翻訳を意識した作文をしたほうが良いと思います。

  • どうせ翻訳するので、日本語としての体裁はあまり整っていなくても大丈夫です。

  • 文章の論理展開については、きちんと詰めておく必要があります(経験上、ここが多くの学生にとって鬼門となります)。

以下、出版したpreprintの文章を例に、作業の様子を示します。

予め作文した日本語の下書きは以下の通りです。

大規模言語モデル(LLM)はtransformerベースのアーキテクチャを持つ深層学習モデルであり、2023年の3月に公開されたGPT-4を筆頭に、その応答能力の高さが注目を集めている。
LLMはパラメータ数を増やすにつれ、新たな能力を獲得することが示唆され(創発)、単なる文字列の出力のみならず、質疑応答、簡単な論理推論、自律的なプランニングといった、高度なタスクをこなせることが明らかになっている。
自然科学研究におけるLLMの潜在的な活用範囲は極めて広く、科学知識の回答、実験結果の分析、予測、提案、自動実験のためのロボットシステムの制御、文献収集や執筆など、多岐にわたる用途が期待されている。

一方、LLMを基盤とするAI技術を研究分野で実用化するにあたって、解決すべき課題も明らかになりつつある。
最も基本的な課題は、専門知識の拡充である。LLMに専門情報を学ばせることの有益性は、プログラミングを始めとするコンピュータ系の領域で既に証明されており、多くのプログラマにとってLLMは欠かせないツールとなっている。一方、情報科学以外の領域において、LLMの専門知識は不足しているケースが多い。例えばGPT-4は化学分野においては大学院レベルの教科書を読んでいることが推察される一方で、先端の学術論文に関する質問に殆ど答えることができていない。このincapabilityは、当然ながら言語モデルがオープンアクセスではない論文にアクセスすることの実務的な困難さに加え、後に本文で述べる通り、学習可能なデータ数に対する言語モデルの学習効率の低さに起因している可能性がある。

イントロ部分

Step2 GPTに翻訳させる

ポイント

ChatGPTを使います。無料の3.5でも動くかもしれませんが、4の方が完全上位互換かつ安心感があるので、4がオススメです。

プロンプト

英語の論文を書いているので、英訳してくださいと頼めばOKです。

#指示: 学術論文を書いています。論点を補いながら、英訳してください。
(ここに日本語をはりつけ)

得られた英語は以下の通り。

Large language models (LLMs), based on transformer architectures, are deep learning models that have garnered significant attention for their response capabilities, particularly with the release of GPT-4 in March 2023. It's suggested that as the number of parameters in LLMs increases, they acquire new capabilities (a phenomenon known as emergence), enabling them to perform not just simple text generation, but also complex tasks such as question answering, basic logical reasoning, and autonomous planning. The potential applications of LLMs in scientific research are incredibly broad, ranging from answering scientific queries, analyzing and predicting experimental results, making suggestions, controlling robotic systems for automated experiments, to gathering literature and writing.
However, there are challenges to be addressed in implementing LLM-based AI technologies in research fields. A fundamental issue is the expansion of specialized knowledge. The usefulness of training LLMs with specialized information has been proven in computer-related fields, including programming, where LLMs have become indispensable tools for many programmers. However, in non-computer science domains, LLMs often lack sufficient expertise. For example, while GPT-4 is believed to have 'read' graduate-level textbooks in chemistry, it struggles to answer questions about cutting-edge academic papers. This incapability might stem not only from the practical difficulties of accessing non-open access papers but also, as later discussed in this paper, from the inefficiency of language models in learning from the available data.

この作業を論文全般に亘って繰り返せば、原稿の完成です。

Step3 完成

作文後、誤訳などを確認・修正して完成です。
一応、Grammarlyで英文チェックもしています。


トラブルシューティング

英文に手を加えたい

たとえば、GPTによって生成された文章において、"We"という単語が頻出しすぎるのが気になることがありました。

Through comprehensive examination of additional training conditions, we have organized the training conditions and database requirements, along with their constraints, to introduce specialized knowledge into existing Large Language Models (LLMs). In our initial task, we trained LLMs with model texts containing fictional information to clarify the various requirements of additional learning. Subsequently, we constructed an open dataset based on about 55,000 open-access papers from the Nature series and attempted to generate models trained with more practical knowledge. These foundational investigations allowed us to organize the substantial conditions for adding new knowledge to existing models and to clarify the limitations of current methods.

そのような場合は、受動態を使って文章を直すように指示します。

#Weを使いすぎなので、受動態にして。
(日本語の文章)
受動態に書き換えさせる例

無事に受動態の文章になりました。

情報を付け加えたい

既に書かれた文章に対して、少し情報を付け加えたくなるケースは多々あります。

たとえば次の文章に対して、

These foundational investigations allowed us to organize the substantial conditions for adding new knowledge to existing models and to clarify the limitations of current methods.
(これらの基礎的な調査により、既存のモデルに新しい知識を追加するための実質的な条件を整理し、現在の手法の限界を明確にすることができました。)

以下のような情報を加えたいとします。

本研究は、情報科学や化学研究にインパクトを与える

その場合は、情報を追加してください、という旨のプロンプトを作ります。

#英作文して。

These foundational investigations allowed us to organize the 
substantial conditions for adding new knowledge to existing models and
 to clarify the limitations of current methods.
本研究は、情報科学や化学研究にインパクトを与える
無事に追加されました

さらに、「論点を補いながら」というフレーズを入れると、話を膨らました文章が得られます(※ただし、一般論を語り始めるので、あまり役に立たないことが多いです)。

#論点を丁寧に補いながら、英作文して。

These foundational investigations allowed us to organize the 
substantial conditions for adding new knowledge to existing models and
 to clarify the limitations of current methods.
本研究は、情報科学や化学研究にインパクトを与える


単語を直したい

GPTが用いる学術用語が不適切な場合があります(単語の誤訳)。
また、GPTは記憶力が悪いので、「Large Language Models (LLMs)」のような略語の定義を文章中で何度も行ってきます。
単語の用法をプロンプトレベルで制御したいところですが、あまりうまく行かないケースが多かったです。

上手く行かなかった例。指示が伝わっていません。

現実的な解決策として、英訳をすべて終えた後に、wordなどのテキストエディタを用いて当該単語を一括変換するのがオススメです。


番外編: 英文校正にGPTを使う

特に教育現場では、GPTではなく人間が英語を書くケースは多々あります。
赤入れをするのが教員の役割ということになっていますが、科学の本筋ではない箇所ーたとえば文法や文章の流暢さーについて、逐一丁寧に指摘するのは骨が折れます。
そのようなタスクは、GPTに任せるのがオススメです。

例として、10年以上前に筆者が初めて論文を書いているときの草稿を修正してみます。
元のテキストは以下の通り。色々と問題点があります。

The system allowed to complete the polymerization even at the relatively low temperature (40 oC) and avoid deactivation of radical moieties. Furthermore, we also succeeded in the synthesis of crosslinked PTGE by adding a bifunctional crosslinker in the polymerization, which incredibly increased the durability of PTGE by virture of the crosslinked network when used as a cathode material in a battery.

校正のためのプロンプトの例は以下の通り。

#論文の文章を校正しています。問題点を丁寧に指摘の上、解決策を提示してください。 説明は日本語で。
(英文をここに貼り付ける)

GPTの回答は以下の通り。

この論文の文章にはいくつか改善すべき点があります。以下に問題点と解決策を提示します。
誤字・文法的誤り:
"virture"は誤字です。正しくは"virtue"です。
"allowed to complete"は文法的に不正確です。"allowed the completion of"のように修正することをお勧めします。
明確さの向上:
"the polymerization"という表現が曖昧です。どのようなポリマー化を指しているのかを明確にする必要があります。
"avoid deactivation of radical moieties"の部分が少し不明瞭です。どのようにしてラジカル官能基の非活性化を避けるのか、もう少し詳細を追加すると良いでしょう。
技術的な内容の精度:
"incredibly increased the durability"の表現は科学的な文脈では適切ではありません。"significantly increased"などのより客観的な表現を使用することをお勧めします。
バッテリーのカソード材料として使用した場合のクロスリンクされたネットワークの具体的な利点についてもう少し詳しく述べることが望ましいです。


修正案: 「本システムは、比較的低温(40℃)でもポリマー化を完了させることを可能にし、ラジカル官能基の非活性化を避けることができました。さらに、ポリマー化に二官能性の架橋剤を添加することで、クロスリンクされたPTGEの合成にも成功しました。これにより、バッテリーのカソード材料として使用した際、クロスリンクされたネットワークの効果によりPTGEの耐久性が顕著に向上しました。」

修正案が日本語だったので、英語にしてもらって完成です。
こなれた文章になりました。

(以上)


この記事が気に入ったらサポートをしてみませんか?