利用python来操作word
这里需要安装新的模块
在cmd里面输入
pip install python-docx
安装好之后才能导入word模块,
from docx import Document
且经过测试只能操作docx文件,doc的不行
word在python里分成三个部分
1、文档Document
2、段落paragraph 初步理解为文件里有多少个回车符。一个超长段落也算一个段落,一个空的回车符也是一个段落
3、块run 文字块,文字算一个块,数字算一个块,加粗、斜体等算一个块,字体如果变大也算一个块。类似前端的代码
<span style='font-family:宋体;mso-ascii-font-family:Calibri;
mso-hansi-font-family:Calibri'>段落</span><span lang=EN-US>2</span><span
style='font-family:宋体;mso-ascii-font-family:Calibri;mso-hansi-font-family:Calibri'>,<b>粗体</b><i
style='mso-bidi-font-style:normal'>斜体</i></span><span style='font-size:26.0pt;
font-family:宋体;mso-ascii-font-family:Calibri;mso-hansi-font-family:Calibri'>啊</span>
通过以上代码可以很清晰的看到文字块是由于前端的代码来区分。所有汉子、数字、加粗、变斜、字体变大等,由于前端的属性变了,需要单独属性,所以是一个单独的文字块
from docx import Document
doc = Document('p.docx')
print(doc.paragraphs)
这个输出结果为内存位置,有几个段落就会有几个内存
然后我们开始用python输出word里面的内容
from docx import Document
doc = Document('p.docx')
for paragraph in doc.paragraphs:
print(paragraph.text)