中公优就业西安校区

全国咨询热线

4000069076

首页>资讯列表>西安Python编程培训哪家好

西安Python编程培训哪家好

西安Python编程培训哪家好?西安中公优就业提供实战IT培训课程,含JAVA培训,Python培训,大数据培训,UI设计培训,Web前端培训班,Linux培训,游戏开发培训机构,软件测试培训,营销,网络安全培训等多年来深耕IT培训,致力于培养互联网领域高端IT人才,欢迎咨询,预约试听体验!

文本预处理一般包括分词、词形归一化、删除停用词,下面针对文本预处理的流程进行具体介绍。

1.文本分词

文本分词是预处理过程中必不可少的一个操作,它可以分为两步:步是构造词典,第二步是分词算法的操作。其中,词典的构造比较流行的是双数组的trie树,分词算法常见的主要有正向较大匹配、双向较大匹配、语言模型方法、较短路径算法等。

目前文本分词已经有很多比较成熟的算法和工具,在网上可以搜索到很多,本书使用的是NLTK库和jieba库,分别用作英文和中文的分词操作。

2.词形归一化

基于英文语法的要求,文档中经常会使用单词的不同形态,比如live、lives(第三人称单数)、living(现在分词),另外,也存在大量意义相近的同源词,比如able、unable、disability。如果希望只输入一个词,就能够返回它所有的同源词文档,那么这样的搜索是非常有用的。

词形归一化包括词干提取和词形还原,它们的目的都是为了减少曲折变化的形式,将派生词转化为基本形式。例如:

am,are,is-be

cars,car's,car's-car

不过,词干提取和词形还原所代表的意义不同,前者通常是一个很粗略的去除单词两端词缀的过程,而后者是指利用词汇表和词形分析去除曲折的词缀,以返回词典中包含的词的过程。

3.删除停用词

删除停用词也是比较重要的,主要是因为并不是文本中的每个单词或字符都能够表明文本的特征,比如说“the”“的”“你”“I”“他”等,这些词应该从文本中清除掉。可以在网上下载一份中文或英文的停用词表来作为去停用词的参考。

免费课程预约
每天限量名额,先到先得

扫一扫 免费领取试听课

温馨提示:为不影响您的学业,来校区前请先电话或QQ咨询,方便我校安排相关的专业老师为您解答

以上就是中公优就业西安校区小编为您推荐的西安Python编程培训哪家好的全部内容,本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任,如果发现本站有侵权内容,请联系本站在线客服,我们将第一时间删除处理。

中公优就业西安校区好不好怎么样|中公优就业西安校区联系电话|短信获取地址|咨询电话:4000069076