使用Python处理PDF文档
1
使用Python处理PDF格式文档的类库介绍

PDF(便携式文件格式,Portable Document Format)是由Adobe Systems在1993年用于文件交换所发展出的文件格式。 PDF主要由三项技术组成:衍生自PostScript;字型嵌入系统;资料压缩及传输系统。…

2024-04-5

2
使用PyPDF4对PDF文件进行读取

接下来使用PyPDF4对PDF文件进行读取,需要注意的是他对英文的支持比较好, 如果读取中文就会出现乱码等问题,在后面会介绍几个支持读取中文的库。 查看PDF信息 可以在自己的电脑上随便找一个PDF文件进行尝试操作。 PdfFileRea…

2024-04-5

3
pypdf的页面处理

前面使用了 pypdf 提取了文字和图片,下面继续测试其他方法。 旋转页面 旋转页面功能需要导入PdfWriter模块,有时候PDF是横向模式而不是纵向模式,甚至是颠倒的。 当有人扫描文档为PDF或电子邮件时,很可能会发生这种情况。可以打…

2024-04-5

4
PDF添加页码和水印的方法

水印是纸质或者电子文档上的图像或图案,是一种个人和组织的象征。一些水印只能在特殊照明条件下才能看到。 这一节使用 reportlab 库。 在 Debian / Ubuntu 中通过以下命令安装: sudo apt install -y …

2024-04-5

5
使用 pdfminer3k 模块提取PDF文件内容

pdfminer3k是pdfminer的Python 3接口。 PDFMiner是用于从PDF文档提取信息的工具。 与其他PDF相关工具不同,它完全专注于获取和分析文本数据。 PDFMiner允许获取页面中文本的确切位置以及其他信息,例如…

2024-04-5

6
如何使用reportlab模块

模块默认不支持中文,如果使用中文需要注册,他并不算是真正的开源库。 虽然不能用它读取PDF,但是可以画图、画表格、编辑文字,最后可以输出PDF格式。 安装 pip3 install reportlab 在 Debian 12 中,可以通过…

2024-07-13

阅读使用手册


平台的登录与使用,请参考 《用户使用手册》


注册用户账号


若尚未开通科学计算平台使用权限,请 注册用户账号


登陆


第三方账号登录




介绍

为了方便学习Python语言,基于Jupyter技术栈搭建了在线计算环境。 用户使用时以网页形式打开,对照书中内容进行学习,在线编写代码和运行代码,代码的运行结果也会直接显示。如在编程过程中需要编写说明文档,可在同一个页面直接编写,便于作及时的说明和解释。

在数据科学、机器学习及深度学习的领域里,Jupyter是一个强大的工具,它集成了代码编写、可视化展示、文档记录等多种功能于一体,让科学计算变得既直观又高效。 随着数据科学和人工智能领域的不断发展,Jupyter 也在不断更新和完善其功能和性 能。 未来可以期待看到更多创新的特性和工具被加入到 Jupyter 中,从而进一步推动科学计算和数据分析的发展。





平台内核

目前平台提供配置好的计算时内核供运行使用。后期会根据需求增加公用内核及内核中的默认类库。 相关语言运行环境与类库一般由 Conda 库提供最新版本。

  • Python 3.11 [系统]
  • Python 3.12 [Conda]
  • R 4.4 [Conda]


注意事项

  • 平台使用Jupyter技术搭建,登陆认证使用本系统的注册账号。
  • 使用提供一定数量的硬盘空间存储供用户使用。目前限制为 500M 。
Copyright © 在线编程学习实验平台 Since 2025. 工信部ICP备案:吉ICP备2025024314号