自然语言处理:让小语机器人更加善解人意

2019-05-09 09:34:09

Q:什么是自然语言处理?


A:简单来说,自然语言处理就是让机器模拟人类的语言能力。没有成功的自然语言处理,就不会有真正的认知智能。因此,自然语言处理被视为人工智能的核心问题之一,也被喻为“AI皇冠上的明珠”。



随着人工智能时代的来临,自然语言处理技术也达到了一个新的层次,那么如今的自然语言处理,究竟拥有什么“能力”,结合具体应用场景能做哪些事儿?让我们一起来看吧!


1、词法分析


基于大数据和用户行为的分词后、对词性进行标注、命名实体识别,消除歧义。识别文本中具有特定意义的实体,主要包括人名、地名、职位名、产品名词等。实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,作为结构化信息提取的重要步骤。


应用场景:各大手机厂商语音助手、小语机器人


2、文本分类


对文章按照内容类型(体育/教育/财经/社会/军事....等等)进行自动分类,为文章聚类、文本内容分析等应用提供基础支持,文章分类对文章内容进行深度分析,输出文章的主题一级分类、主题二级分类,在个性化推荐、文章聚合、文本内容分析等场景具有广泛的应用价值。


3、文本纠错


识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容,在搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一,文本纠错能显著提高这些场景下的语义准确性和用户体验。


应用场景:写作类平台


4、获取摘要


实现文本内容精简提炼,从长篇的文章中自动提取关键句和关键段落,构成摘要内容。进而生成指定长度的新闻摘要。


应用场景:智能写作、语音播报


5、情感分析


能够对文本信息进行“情感”上的正向、负向及中性进行评价。情感分析一般根据不同行业语料进行标注,根据不同的模型获得最佳的情感判断准确率。


应用场景:评论分析与决策、评论分类、舆情监控


6、关键字提取


对文本信息进行核心关键词分析,是内容推荐算法的核心,实施手段之一是根据分词后某个词在文章中的出现次数越多,权重越高,但是,在每篇文章中,往往出现次数最多的是“的”“是”“在”等等,这些词称为“停用词”,表示对结果毫无用处,必须过滤掉的词。


另外,在其他有实际意义的词中,又会遇到一些问题。比如在《中国蜜蜂养殖》这篇文章中,“中国”“蜜蜂”“养殖”三个词出现的次数一样多,但很显然,我们更想要的标签是后面两个词。


应用场景:各大内容分发平台


7、文本审核


判断一段文本内容是否符合网络发文规范,识别文本中是否包含违禁类型里面的关键字/词,能够实现自动化、智能化的文本审核,大幅节省内容审核的人力成本。

 

应用场景:用户信息审核、用户评论监控、文章内容审核


结语:

“我们把香蕉给猴子,因为它们饿了”和“我们把香蕉给猴子,因为它们熟透了”有同样的结构。但是代词“它们”在第一句中指的是“猴子”,在第二句中指的是“香蕉”。如果不了解猴子和香蕉的属性,无法区分,这就是电脑只能处理“字符串”,而人可以解决“意义”。

浙江省杭州市余杭区仓前街道向往街1008号16幢204室

Copyright@2018 浙ICP备18013532号-1 版权所有 杭州智语网络科技有限公司