开发者社区> 问答> 正文

标记非英语语言文本

标记非英语语言文本

展开
收起
珍宝珠 2019-12-03 15:01:57 589 0
1 条回答
写回答
取消 提交回答
  • 为了标记其他语言,可以像这样指定语言:

    from nltk.tokenize import sent_tokenize
    mytext = "Bonjour M. Adam, comment allez-vous? J'espère que tout va bien. Aujourd'hui est un bon jour."
    print(sent_tokenize(mytext,"french"))
    
    

    结果将是这样的:

    ['Bonjour M. Adam, comment allez-vous?', "J'espère que tout va bien.", "Aujourd'hui est un bon jour."]
    
    

    NLTk 对其他非英语语言的支持也非常好!

    2019-12-03 15:02:14
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载