Python自动化办公笔记7

2022-03-28 424 0

利用python来操作word

这里需要安装新的模块

在cmd里面输入

pip install python-docx

安装好之后才能导入word模块,

from docx import Document

且经过测试只能操作docx文件,doc的不行

word在python里分成三个部分

1、文档Document

2、段落paragraph 初步理解为文件里有多少个回车符。一个超长段落也算一个段落,一个空的回车符也是一个段落

3、块run 文字块,文字算一个块,数字算一个块,加粗、斜体等算一个块,字体如果变大也算一个块。类似前端的代码

<span style='font-family:宋体;mso-ascii-font-family:Calibri;
mso-hansi-font-family:Calibri'>段落</span><span lang=EN-US>2</span><span
style='font-family:宋体;mso-ascii-font-family:Calibri;mso-hansi-font-family:Calibri'>,<b>粗体</b><i
style='mso-bidi-font-style:normal'>斜体</i></span><span style='font-size:26.0pt;
font-family:宋体;mso-ascii-font-family:Calibri;mso-hansi-font-family:Calibri'>啊</span>

通过以上代码可以很清晰的看到文字块是由于前端的代码来区分。所有汉子、数字、加粗、变斜、字体变大等,由于前端的属性变了,需要单独属性,所以是一个单独的文字块

from docx import Document
doc = Document('p.docx')
print(doc.paragraphs)

这个输出结果为内存位置,有几个段落就会有几个内存

然后我们开始用python输出word里面的内容

from docx import Document
doc = Document('p.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

相关文章

Tkinter学习(2)
Tkinter学习(1)
selenium自动化模块学习(5)
selenium自动化模块学习(4)
selenium自动化模块学习(3)
selenium自动化模块学习(2)

发布评论