Python初心者向け | docxファイルをtxt形式に自動変換する方法
「Wordの文章をtxt形式にしたいけどコピペがめんどくさい…」
「自動でtxt形式に変更する方法が知りたい。」
「Pythonでできるって聞いたけどどうすればいいの?」
本記事ではこのような方を対象に、Pythonで特定のフォルダ内にあるWordのdocxファイルをtxt形式に自動変換する方法をご紹介します。
■本記事で分かること
Pythonで特定のフォルダ内にあるWordのdocxファイルをtxt形式に自動変換する方法
■本記事の前提事項
Pythonを使うための環境が整っていること。
環境構築の方法が分からない方はPythonのことを詳しく解説しているサプーさんの動画を参考にしてください!
サプーさんの動画はとても分かりやすくて、プログラミング初心者の私にとっては神のような存在です…笑
ちなみに私はWindowsでVSCodeというPythonを実行できるアプリを使用していますので、私が参考にした動画を紹介します👇
■本記事の信頼性
私は、本業でChatGPTなどのAIツールを活用して効率化を実現。ほぼ毎日定時で帰宅し、家族との充実した時間を確保している「なおき」といいます。
AIと全く無縁の体育系で文系出身(数学Ⅱで終わりました)の私でもできる時短術をわかりやすく説明できるよう、Xなどを活用して情報発信しています。
前提として、私はPythonのことはほとんど分かっていません。
一度かじろうとしましたが、30代になり本業の責任が増す中、3歳と5歳の娘、オンラインで私以上の収入を稼ぐ妻…自分の時間がほとんどとれない中で腰を据えてプログラミングの勉強ができず、速攻で挫折しました…
しかし!
こんな私でも、ChatGPTを使うことでスクリプトを出力してもらい、簡単にPythonを実行できるようになりました!
それでは今回は、非エンジニアでもできる「Pythonで特定のフォルダ内にあるWordのdocxファイルをtxt形式に自動変換する方法」をご紹介します!
1.Pythonでtxt化するdocxファイルの準備
まずは、txt形式にしたいdocxファイルを準備してください。
今回は日本の四季をタイトルとした簡単なdocxファイルを準備しました。
2.Pythonスクリプトの準備
次に、Pythonスクリプトを準備します。
docxファイルをtxt形式に変えるためには、まずスクリプトを実行するためのライブラリと呼ばれるものをWindows PowerShellやコマンドプロンプトでインストールする必要があります。
ライブラリをインストールするため、デスクトップなどの検索を使用して、Windows PowerShellまたはコマンドプロンプトを起動してください。
Windows PowerShellまたはコマンドプロンプトを起動したら、以下の内容をコピペしてEnterを押してインストールしてください。
pip install python-docx
次に、以下のスクリプトをお使いの実行環境(VScodeなど)にコピペして下さい。
import os
from docx import Document
def convert_docx_to_txt(folder_path):
# 指定されたフォルダ内のすべてのファイルをリストアップ
for filename in os.listdir(folder_path):
# ファイルが.docxで終わるかどうかを確認
if filename.endswith('.docx'):
# ファイルパスを作成
file_path = os.path.join(folder_path, filename)
# .docxファイルを読み込み
doc = Document(file_path)
# テキスト内容を抽出
fullText = []
for para in doc.paragraphs:
fullText.append(para.text)
# .txtファイル名を作成
txt_filename = filename.replace('.docx', '.txt')
txt_path = os.path.join(folder_path, txt_filename)
# テキスト内容を.txtファイルに書き込み
with open(txt_path, 'w', encoding='utf-8') as f:
f.write('\n'.join(fullText))
# 使用例
folder_path = 'あなたのフォルダパス' # 例: 'C:/Users/あなたのユーザー名/Documents/docx_files'
convert_docx_to_txt(folder_path)
ちなみに、Pythonの実行環境であるVSCode上で見るとこんな感じ👇になります。
このままだと、変更したいdocxファイルのあるフォルダパスが指定されていない状態なので、以下の部分を指定のフォルダのパスにしてください。
【変更する箇所】
# 使用例
folder_path = 'あなたのフォルダパス'
【変更後】
注意点として、「””」で囲むことと、スラッシュを「\\」のように2つにすることを忘れないでください。
folder_path = "C:\\Users\\・・・・・\\テストデータ"
ここまで出来たら、あとは実行するだけです!
3.Pythonスクリプトの実行
実行すると、以下のようにtxt形式で出力されました。
無事、docx形式からtxt形式に変更されました!
以上で、作業は終了です。
お疲れ様でした!!
4.まとめ
今回は、「Pythonで特定のフォルダ内にあるWordのdocxファイルをtxt形式に自動変換する方法」をテーマに紹介しましたが、いかがだったでしょうか?
docxファイルの準備
Pythonスクリプトの設定とファイル名等の入力
Pythonスクリプトの実行
上記の内容が実行できれば、ワンクリックでdocx形式のファイルをtxt形式に自動変換できるようになります!
txt形式に変換すれば、以下のような用途でメリットがあります。
①互換性
txtファイルは、ほぼ全てのテキストエディタやプログラミング言語での読み書きが可能なので、データ処理・分析、バッチ処理、大量のファイル処理といった幅広い場面での活用が可能です。
②データ容量
docxファイルに比べ、単純なtxtファイルはデータサイズが小さくなることが多いです。このため、要領の節約やファイル転送が効率的に実施できます。
また、Pythonを使用することのメリットは、「フォルダ名を変えれば何度でも使いまわせる」というのが一番のメリットです。
docxからtxt形式への変更作業を単純なコピペによる手作業でやっていては日が暮れてしまいます。
是非、この方法で簡単にファイル形式を変更してみてください!
今回紹介した内容で皆さんの業務が少しでも効率化できれば、スキ、SNSでの紹介をしていただけると大変励みになりますので、何卒よろしくお願いします!
このほか、AI×時短術の知識をX(旧Twitter)で紹介していますので、是非フォローしてください!
この記事が気に入ったらサポートをしてみませんか?