Web信息解析与处理
1
Web 的概念

Web(World Wide Web)即全球广域网,也称为万维网, 它是一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。 是建立在Internet上的一种网络服务, 为浏览者在Internet上查找和浏览信息…

2024-04-11

2
从Web抓取信息

少数可怕的时候是没有 Wi-Fi 。这时才意识到,在计算机上所做的事, 有多少实际上是在因特网上做的事。 完全出于习惯会发现自己尝试收邮件、阅读朋友的推特,或回答 问题:“在 Kurtwood Smith 演出1987年的机械战警之前, …

2023-08-21

3
网页抓取

网页抓取是通过程序下载网页并从中提取信息的过程。 这种技术很有用,在网页中有需要在程序中使用的信息时,就可使用它。 当然,如果网页是动态的,即随时间而变化,这就更有用了。 如果网页不是动态的,可手工下载一次并提取其中的信息。 (当然,最理…

2020-02-22

4
HTML介绍

HTML称为超文本标记语言,是一种标识性的语言。它包括一系列标签. 通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。 HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动…

2024-04-11

5
Python - 使用 CGI 创建动态网页

本章的第一部分讨论了客户端技术,下面将注意力转向服务器端。 本节讨论基本的Web编程 技术:通用网关接口(CGI)。 CGI是一种标准机制,Web服务器可通过它将(通常是通过Web表 达提供的)查询交给专用程序(如编写的Python程序)…

2023-06-24

6
使用 requests 模块从Web下载文件

requests 模块很容易从Web下载文件, 不必担心一些复杂的问题,诸如网络错误、 连接问题和数据压缩。 requests 模块不是 Python自带的,所以必须先安装。通过命令行, 运行 pip install requests 。…

2024-09-28

7
Python Web 框架的应用

对于重要的Web应用,大多数人都不会直接为其编写CGI脚本, 而是选择使用Web框架,因为它会代替完成很多繁重的工作。 这样的框架有很多,后面将提及其中的几个, 但现在要将注意力放在既简单又有用的Flask(http://flask.po…

2020-07-5

8
将下载的文件保存到硬盘

现在,可以用标准的 open() 函数和 write() 方法,将Web页面保存到硬盘中的一个文件。 但是,这里稍稍有一点不同。 首先,必须用“写二进制”模式打开该文件,即向函数传入字符串 'wb' ,作为 open() 的第二参数。 即…

2024-01-20

9
HTML 基础知识

在拆解网页之前,需要学习一些 HTML 的基本知识。 同时也会看到如何利用Web浏览器的强大开发者工具, 它们使得从Web抓取信息更容易。 超文本标记语言(HTML)是编写Web页面的格式。 本章假定大家对HTML有一些基本经验,但如果需…

2025-03-27

10
Web 服务:更高级的抓取

Web服务有点像对计算机友好的网页。 它们基于让程序能够通过网络交换信息的标准和协议——通常其中一个程序请求信息或服务(客户端或服务请求者), 而另一个程序提供信息或 服务(服务器或服务提供者)。 确实,Web服务器很容易理解,而且看起来…

2024-04-7

11
网页信息获取与解析

大数据的时代信息已近覆盖了社会体系中的各行各业, 大数据是指在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合, 需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 要对网页信息进行…

2024-01-20

12
Web页面解析

HTML 文档本身是结构化的文本,有一定的规则,通过它的结构可以简化信息提取。 于是,就有了lxml、pyquery、BeautifulSoup等网页信息提取库。 一般会用这些库来提取网页信息。 其中,lxml 有很高的解析效率,支持 x…

2024-01-17

13
用 BeautifulSoup 模块解析 HTML

BeautifUl Soup 是一个模块,用于从 HTML 页面中 提取信息(用于这个目的时,它比正则表达式好很多)。 BeautifUlSoup 模块的名称是 bs4 (表示 Beautiful Soup ,第4版)。要安装它,需要在 …

2025-03-27

14
简单的爬虫

爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。 从技术层面来说就是 通过程序模拟浏览器请求站点的行为, 把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地, 进而提…

2025-02-19

阅读使用手册


平台的登录与使用,请参考 《用户使用手册》


注册用户账号


若尚未开通科学计算平台使用权限,请 注册用户账号


登陆


第三方账号登录




介绍

为了方便学习Python语言,基于Jupyter技术栈搭建了在线计算环境。 用户使用时以网页形式打开,对照书中内容进行学习,在线编写代码和运行代码,代码的运行结果也会直接显示。如在编程过程中需要编写说明文档,可在同一个页面直接编写,便于作及时的说明和解释。

在数据科学、机器学习及深度学习的领域里,Jupyter是一个强大的工具,它集成了代码编写、可视化展示、文档记录等多种功能于一体,让科学计算变得既直观又高效。 随着数据科学和人工智能领域的不断发展,Jupyter 也在不断更新和完善其功能和性 能。 未来可以期待看到更多创新的特性和工具被加入到 Jupyter 中,从而进一步推动科学计算和数据分析的发展。





平台内核

目前平台提供配置好的计算时内核供运行使用。后期会根据需求增加公用内核及内核中的默认类库。 相关语言运行环境与类库一般由 Conda 库提供最新版本。

  • Python 3.11 [系统]
  • Python 3.12 [Conda]
  • R 4.4 [Conda]


注意事项

  • 平台使用Jupyter技术搭建,登陆认证使用本系统的注册账号。
  • 使用提供一定数量的硬盘空间存储供用户使用。目前限制为 500M 。
Copyright © 在线编程学习实验平台 Since 2025. 工信部ICP备案:吉ICP备2025024314号