見出し画像

Python初心者向け | docxファイルをtxt形式に自動変換する方法

「Wordの文章をtxt形式にしたいけどコピペがめんどくさい…」
「自動でtxt形式に変更する方法が知りたい。」
「Pythonでできるって聞いたけどどうすればいいの?」

本記事ではこのような方を対象に、Pythonで特定のフォルダ内にあるWordのdocxファイルをtxt形式に自動変換する方法をご紹介します。

■本記事で分かること
Pythonで特定のフォルダ内にあるWordのdocxファイルをtxt形式に自動変換する方法

■本記事の前提事項
Pythonを使うための環境が整っていること。
環境構築の方法が分からない方はPythonのことを詳しく解説しているサプーさんの動画を参考にしてください!

サプーさんの動画はとても分かりやすくて、プログラミング初心者の私にとっては神のような存在です…笑

ちなみに私はWindowsでVSCodeというPythonを実行できるアプリを使用していますので、私が参考にした動画を紹介します👇

■本記事の信頼性
私は、本業でChatGPTなどのAIツールを活用して効率化を実現。ほぼ毎日定時で帰宅し、家族との充実した時間を確保している「なおき」といいます。

AIと全く無縁の体育系で文系出身(数学Ⅱで終わりました)の私でもできる時短術をわかりやすく説明できるよう、Xなどを活用して情報発信しています。

前提として、私はPythonのことはほとんど分かっていません。

一度かじろうとしましたが、30代になり本業の責任が増す中、3歳と5歳の娘、オンラインで私以上の収入を稼ぐ妻…自分の時間がほとんどとれない中で腰を据えてプログラミングの勉強ができず、速攻で挫折しました…

しかし!
こんな私でも、ChatGPTを使うことでスクリプトを出力してもらい、簡単にPythonを実行できるようになりました!

それでは今回は、非エンジニアでもできる「Pythonで特定のフォルダ内にあるWordのdocxファイルをtxt形式に自動変換する方法」をご紹介します!

1.Pythonでtxt化するdocxファイルの準備

まずは、txt形式にしたいdocxファイルを準備してください。

テストデータを準備しました
docxの中身

今回は日本の四季をタイトルとした簡単なdocxファイルを準備しました。

2.Pythonスクリプトの準備

次に、Pythonスクリプトを準備します。

docxファイルをtxt形式に変えるためには、まずスクリプトを実行するためのライブラリと呼ばれるものをWindows PowerShellやコマンドプロンプトでインストールする必要があります。

ライブラリをインストールするため、デスクトップなどの検索を使用して、Windows PowerShellまたはコマンドプロンプトを起動してください。

Windows PowerShellを起動

Windows PowerShellまたはコマンドプロンプトを起動したら、以下の内容をコピペしてEnterを押してインストールしてください。

pip install python-docx
コピペするとこんな感じ

次に、以下のスクリプトをお使いの実行環境(VScodeなど)にコピペして下さい。

import os
from docx import Document

def convert_docx_to_txt(folder_path):
    # 指定されたフォルダ内のすべてのファイルをリストアップ
    for filename in os.listdir(folder_path):
        # ファイルが.docxで終わるかどうかを確認
        if filename.endswith('.docx'):
            # ファイルパスを作成
            file_path = os.path.join(folder_path, filename)
            # .docxファイルを読み込み
            doc = Document(file_path)
            # テキスト内容を抽出
            fullText = []
            for para in doc.paragraphs:
                fullText.append(para.text)
            # .txtファイル名を作成
            txt_filename = filename.replace('.docx', '.txt')
            txt_path = os.path.join(folder_path, txt_filename)
            # テキスト内容を.txtファイルに書き込み
            with open(txt_path, 'w', encoding='utf-8') as f:
                f.write('\n'.join(fullText))

# 使用例
folder_path = 'あなたのフォルダパス'  # 例: 'C:/Users/あなたのユーザー名/Documents/docx_files'
convert_docx_to_txt(folder_path)

ちなみに、Pythonの実行環境であるVSCode上で見るとこんな感じ👇になります。

このままだと、変更したいdocxファイルのあるフォルダパスが指定されていない状態なので、以下の部分を指定のフォルダのパスにしてください。

【変更する箇所】

# 使用例
folder_path = 'あなたのフォルダパス'

【変更後】
注意点として、「””」で囲むことと、スラッシュを「\\」のように2つにすることを忘れないでください。

folder_path = "C:\\Users\\・・・・・\\テストデータ"

ここまで出来たら、あとは実行するだけです!

3.Pythonスクリプトの実行

実行すると、以下のようにtxt形式で出力されました。

右側が自動生成されたtxtデータ
txtデータの中身

無事、docx形式からtxt形式に変更されました!

以上で、作業は終了です。
お疲れ様でした!!

4.まとめ

今回は、「Pythonで特定のフォルダ内にあるWordのdocxファイルをtxt形式に自動変換する方法」をテーマに紹介しましたが、いかがだったでしょうか?

  1. docxファイルの準備

  2. Pythonスクリプトの設定とファイル名等の入力

  3. Pythonスクリプトの実行

上記の内容が実行できれば、ワンクリックでdocx形式のファイルをtxt形式に自動変換できるようになります!

txt形式に変換すれば、以下のような用途でメリットがあります。

①互換性
txtファイルは、ほぼ全てのテキストエディタやプログラミング言語での読み書きが可能なので、データ処理・分析、バッチ処理、大量のファイル処理といった幅広い場面での活用が可能です。

②データ容量
docxファイルに比べ、単純なtxtファイルはデータサイズが小さくなることが多いです。このため、要領の節約やファイル転送が効率的に実施できます。

また、Pythonを使用することのメリットは、「フォルダ名を変えれば何度でも使いまわせる」というのが一番のメリットです。

docxからtxt形式への変更作業を単純なコピペによる手作業でやっていては日が暮れてしまいます。

是非、この方法で簡単にファイル形式を変更してみてください!

今回紹介した内容で皆さんの業務が少しでも効率化できれば、スキ、SNSでの紹介をしていただけると大変励みになりますので、何卒よろしくお願いします!

このほか、AI×時短術の知識をX(旧Twitter)で紹介していますので、是非フォローしてください!

この記事が気に入ったらサポートをしてみませんか?