结巴分词
1
jieba分词

为了让计算机更容易理解文本,通常中文信息处理的第一步是中文分词。中文分词是在中文句子中的词与词之间加上边界标记。 特点 支持 4 种分词模式: 精确模式:试图将句子 最精确地切开 ,适合文本分析。 全模式:把句子中 所有可以成词的词语都…

2025-03-27

2
jieba结巴分词--关键词抽取(核心词抽取)

简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。 这是对论文进行标识的重要方法,目前依然可以在论文中看到关键词这一项。 除了…

2025-03-27

3
jieba词性标注

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器, tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分…

2024-05-9

4
jieba添加自定义词典

开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词来增强歧义纠错能力 通过词典文件载入自定义词典 创建一个 dict.txt ,然后写入你的分词,一个词占一行;每一行分…

2025-03-27

5
并行分词

原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升 基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows 用法: jieba.…

2025-03-27

阅读使用手册


平台的登录与使用,请参考 《用户使用手册》


注册用户账号


若尚未开通科学计算平台使用权限,请 注册用户账号


登陆


第三方账号登录




介绍

为了方便学习Python语言,基于Jupyter技术栈搭建了在线计算环境。 用户使用时以网页形式打开,对照书中内容进行学习,在线编写代码和运行代码,代码的运行结果也会直接显示。如在编程过程中需要编写说明文档,可在同一个页面直接编写,便于作及时的说明和解释。

在数据科学、机器学习及深度学习的领域里,Jupyter是一个强大的工具,它集成了代码编写、可视化展示、文档记录等多种功能于一体,让科学计算变得既直观又高效。 随着数据科学和人工智能领域的不断发展,Jupyter 也在不断更新和完善其功能和性 能。 未来可以期待看到更多创新的特性和工具被加入到 Jupyter 中,从而进一步推动科学计算和数据分析的发展。





平台内核

目前平台提供配置好的计算时内核供运行使用。后期会根据需求增加公用内核及内核中的默认类库。 相关语言运行环境与类库一般由 Conda 库提供最新版本。

  • Python 3.11 [系统]
  • Python 3.12 [Conda]
  • R 4.4 [Conda]


注意事项

  • 平台使用Jupyter技术搭建,登陆认证使用本系统的注册账号。
  • 使用提供一定数量的硬盘空间存储供用户使用。目前限制为 500M 。
Copyright © 在线编程学习实验平台 Since 2025. 工信部ICP备案:吉ICP备2025024314号