python生成word目錄（手把手教你使用python的zipfile模塊巧解word批量生成問題）

2023-09-21 13:50:50

今天給大家分享使用python的Zipfile模塊巧解word批量生成問題，這裡提供兩種方案給大家參考。

方案一：使用python-docx.Document讀取word文檔

方案二：zipfile巧解word文檔

平臺：windows10

解釋器：python3.7

任務需求

現有一包含目標數據的excel文檔，需要將其中的每一行數據的對應內容替換到指定word中，並逐一保存。

任務拆解

首先查看word文檔格式，可以看到文件後綴為.doc，需要替換的是正文部分紅框中的英文部分。

目標數據excel文檔，將excel中的對應列下的數據替換到word文檔中。

excel數據比較規整無需二次處理，如果列名與word文檔中不對應或者沒有，則需要調整或新增。如此一來只要考慮如何讀取doc文件並按一定邏輯進行替換即可。

任務方案

方案一：使用python-docx.Document讀取word文檔

在這次需求之前我並沒有用過python操作word文檔，感謝交流群內各位大佬相助，從Python Excel Word一秒製作百份合同文章中雖然跟著步伐編寫代碼，而當執行時報錯了，目標字符串沒有被替換上等等。

問題一：模塊安裝錯誤，文章中import docx，我誤以為pip install docx就行了，而調用Document類時，發現模塊下無該類，遂進行百度，應當時pip install python-docx，import docx。

問題二：python-docx模塊不能操作doc文檔，上述已提到，本次處理的word文檔為doc後綴，需要將其轉換docx後綴方可正常操作，其實一個文檔通過word軟體進行另存為即可，但是在python編程中就顯得不太優雅，主要是我太懶了，最多就將目標文件路徑拷貝至代碼中，所以使用win32com模塊調用word程序轉換doc文檔為docx文檔。

問題三：Python Excel Word一秒製作百份合同這篇文章中是定位到具體文本段在進行替換，首次嘗試時，發現並不能替換成功，將代碼逐步運行定位問題所在。可以想像下Document是將整個word文檔分成多個paragraphs，一個paragraphs有很多行，每行有多個文本塊，由於每行中的文本塊的劃分不太明白，中英文輸入法不同方式輸入的中/英文會導致本是一個單詞被拆開，也有可能是該word文檔中含有一定格式造成，如下劃線，在無下劃線的情況下，單詞沒有被分開，嘗試用paragraphs.text進行內容的替換，文本可以替換成功，但下劃線的格式被丟棄，所以只能採取文本塊下的text方法進行替換，在原word文件中用同一種輸入法輸入英文(與excel的列名相對應，應保證該字符串不在word中其他地方出現，即中文也是可以的，推薦寫法：#列名#)

將上述問題逐一解決後，輸入目標文件路徑及輸入路徑就大功告成了。源碼：

from copy import deepcopyfrom pathlib import Pathfrom win32com import client as wc # pip install pypiwin32from docx import Document # pip install python-docximport pandas as pd# python-docx不能處理doc文檔，使用win32com轉存為docx文檔def doctransform2docx(doc_path):docx_path = doc_path 'x'suffix = doc_path.split('.')[1]assert 'doc' in suffix, '傳入的不是word文檔，請重新輸入！'if suffix == 'docx':return Document(doc_path)word = wc.Dispatch('Word.Application')doc = word.Documents.Open(doc_path)doc.SaveAs2(docx_path, 16) # docx為16doc.Closeword.Quitreturn Document(docx_path)# 替換docx中的特定字符，由於run方法在有格式的docx文件中展示效果很差，故將docx中的文本的需要填充出英文字符佔位def replace_docx(name, values, wordfile, path_name='Company'):wordfile_copy = deepcopy(wordfile) # 防止原文件被篡改，deepcopy為副本for col_name, value in zip(name, values):if col_name == 'Company':path_name = str(value)for paragraphs in wordfile_copy.paragraphs:for run in paragraphs.runs:run.text = run.text.replace(col_name, str(value))# docx文檔替換完畢，另存為，一定要用絕對路徑wordfile_copy.save(f'{save_folder}/{path_name}.docx')if __name__ == '__main__':# 定義需處理的文件路徑doc_path = r"D:\solve_path\單位.doc"excel_path = r"D:\solve_path\信息.xls"save_folder = Path('D:/docx_save')save_folder.mkdir(parents=True, exist_ok=True) # 文件夾沒有時自動創建# 獲取excel數據data = pd.read_excel(excel_path)wordfile = doctransform2docx(doc_path)data_save = data.apply(lambda x: replace_docx(x.index, x.values, wordfile), axis=1)

在我以為大功告成之際，問題來了，原文檔中的方框沒了（漏！！！）效果圖：

解決了格式卻解決不了特殊字符問題，禿了啊……，我想python-docx中一定有相應的解決方案，但是我初次嘗試，對其中源碼部分猶如天書般的存在，在多次調用方法下發現其中的一個參數輸出，wordfile.part.blob:

輸出內容讓我想起了之前解密excel時看到的文件開頭，xml文件，然後首先嘗試替換其中文本，原以為會像run.text = run.text.replace(col_name, str(value))一樣即可，然而報錯了，禁止修改。

方案二：zipfile巧解word文檔

正當我認為別無他法時，就此作罷時，百度百科幫助了我：

docx文檔本質上就是xml文件，emmmm，很妙，之前為了提取xlsx中的圖片解壓縮過xlsx文件然後提取，果然可行，替換的主體文件就是word文件夾下的document.xml文件

當然在代碼編寫前首先嘗試能不能手動復原為docx，用7z默認參數還原失敗，經過多番尋找，用zip類型壓縮即可，軟體不限，手動解壓及替換字符壓縮均成功，開始敲代碼。除習慣性用pandas讀取excel文件外，也不用安裝其他包，在現用python3.7中均為內置包。使用zipfile對壓縮類文件進行解壓，文章學習來源：

python中如何壓縮和解壓縮文件https://www.cnblogs.com/rongge95500/p/11271764.html

文章中寫得很詳細，我僅把os.path改寫成pathlib。但在對目錄下文件進行壓縮還原至docx文檔時出現了問題：

問題一：文章中的壓縮文件為 zipfile.ZIP_DEFLATED，對遍歷後的所有文件進行壓縮至一個目錄下，這就出現了還原後的docx內的文件層次不對應，docx讀取失敗。改用zipfile.zlib.DEFLATED方可成功按層次壓縮。

問題二：zipfile壓縮文件保存時，應當有文件名及其別名，且別名不能為絕對路徑，為了能正常還原也應使用原有名稱，在代碼中為f.write(文件路徑, 文件路徑別名)

源碼：

from shutil import rmtreeimport zipfilefrom copy import deepcopyfrom pathlib import Pathfrom win32com import client as wc # pip install pypiwin32import pandas as pd# doc文檔不包含所需xml文件，使用win32com轉存為docx文檔def doctransform2docx(doc_path):docx_path = doc_path 'x'suffix = doc_path.split('.')[1]assert 'doc' in suffix, '傳入的不是word文檔，請重新輸入！'if suffix == 'docx':return Path(doc_path)word = wc.Dispatch('Word.Application')doc = word.Documents.Open(doc_path)doc.SaveAs2(docx_path, 16) # docx為16doc.Closeword.Quitreturn Path(docx_path)# docx文檔解壓def docx_unzip(docx_path):docx_path = Path(docx_path) if isinstance(docx_path, str) else docx_pathupzip_path = docx_path.with_name(docx_path.stem)with zipfile.ZipFile(docx_path, 'r') as f:for file in f.namelist:f.extract(file, path=upzip_path)xml_path = upzip_path.joinpath('word/document.xml')with xml_path.open(encoding='utf-8') as f:xml_file = f.readreturn upzip_path, xml_path, xml_file# 講文件夾中的所有文件壓縮成docx文檔def docx_zipped(docx_path, zipped_path):docx_path = Path(docx_path) if isinstance(docx_path, str) else docx_pathwith zipfile.ZipFile(zipped_path, 'w', zipfile.zlib.DEFLATED) as f:for file in docx_path.glob('**/*.*'):f.write(file, file.as_posix.replace(docx_path.as_posix '/', ''))# 刪除生成的解壓文件夾def remove_folder(path):path = Path(path) if isinstance(path, str) else pathif path.exists:rmtree(path)else:raise "系統找不到指定的文件"# 替換docx中的特定字符，重新保存document.xml至需要壓縮的目錄下def replace_docx(name, values, xml_file, xml_path, unzip_path, path_name='Company'):xml_path = Path(xml_path) if isinstance(xml_path, str) else xml_pathxml_file_copy = deepcopy(xml_file) # 深複製xml內容for col_name, value in zip(name, values):if col_name == 'Company':path_name = str(value)xml_file_copy = xml_file_copy.replace(col_name, str(value))with xml_path.open(mode='w', encoding='utf-8') as f:f.write(xml_file_copy)# xml文檔替換完畢，通過zipfile重新壓縮另存為docx文檔docx_zipped(unzip_path, f'{save_folder}/{path_name}.docx')if __name__ == '__main__':# 定義需處理的文件路徑doc_path = r"D:\solve_path\單位.doc"excel_path = r"D:\solve_path\信息.xls"save_folder = Path('D:/docx_save')save_folder.mkdir(parents=True, exist_ok=True) # 文件夾沒有時自動創建# 獲取excel數據data = pd.read_excel(excel_path)docx_path = doctransform2docx(doc_path)unzip_path, xml_path, xml_file = docx_unzip(docx_path)data_save = data.apply(lambda x: replace_docx(x.index, x.values, xml_file, xml_path, unzip_path), axis=1)remove_folder(unzip_path)

打開生成的文件，方框沒有消失，下劃線也在。