当前位置:
凯发ag旗舰厅登录网址下载 >
编程语言
> python
>内容正文
python
《nltk基础教程——用nltk和python库构建机器学习应用》——2.3 语句分离器 -凯发ag旗舰厅登录网址下载
凯发ag旗舰厅登录网址下载
收集整理的这篇文章主要介绍了
《nltk基础教程——用nltk和python库构建机器学习应用》——2.3 语句分离器
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
本节书摘来异步社区《nltk基础教程——用nltk和python库构建机器学习应用》一书中的第2章,第2.3节,作者:nitin hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。
2.3 语句分离器
在某些nlp应用中,我们常常需要将一大段原生文本分割成一系列的语句,以便从中获取更多有意义的信息。直观地说,就是让语句成为一个可用的交流单元。当然,要想在计算机上实现这个任务可比它看上去要困难得多了。典型的语句分离器既可能是(.)[1]这样简单的字符串分割符,也有可能是某种预置分类器这样复杂的语句边界标识:
>>>inputstring = ' this is an example sent. the sentence splitter will split on sent markers. ohh really !!' >>>from nltk.tokenize import sent_tokenize >>>all_sent = sent_tokenize(inputstring) >>>print all_sent [' this is an example sent', 'the sentence splitter will split on markers.','ohh really !!']在这里,我们正试着将原生文本字符串分割到一个语句列表中。用的是预处理函数sent_tokenize(),这是一个内置在nltk库中的语句边界检测算法。当然,如果我们在应用中需要自定义一个语句分离器的话,也可以用以下方式来训练出属于自己的语句分离器:
>>>import nltk.tokenize.punkt >>>tokenizer = nltk.tokenize.punkt.punktsentencetokenizer()该预置语句分离器可以支持17种语言。我们只需要为其指定相关的配方对象即可。根据我的经验,这里只要提供一个相关种类的文本语料就已经足够了,而且实际上也很少有机会需要我们自己来构建这些内容。
总结
以上是凯发ag旗舰厅登录网址下载为你收集整理的《nltk基础教程——用nltk和python库构建机器学习应用》——2.3 语句分离器的全部内容,希望文章能够帮你解决所遇到的问题。
如果觉得凯发ag旗舰厅登录网址下载网站内容还不错,欢迎将凯发ag旗舰厅登录网址下载推荐给好友。
- 上一篇: 《玩转微信6.0》一1.2 微信初体验
- 下一篇: 《haskell函数式编程入门》—— 第