产品详情页


自然语言支撑平台

版本信息:V1.0 技术类 · 工具产品

- 产品介绍 -

自然语言处理(NLP)是人工智能和语言学的一部分,它致力于使用计算机理解人类语言中的句子或词语。NLP 以降低用户工作量并满足使用自然语言进行人机交互的愿望为目的。因为用户可能不熟悉机器语言,所以 NLP 就能帮助用户使用自然语言和机器交流。 随着人类对非结构化数据(文字、语音、图像等)分析的需求,尤其是大量文本类数据的分析,必然需要一些让计算机“理解”文字的方法,最直接有效的办法就是将文字转化为数字,词向量就是将文字映射到向量空间到表示方法,通常这种NLP技术叫词嵌入(word embedding),近年来,词向量已逐渐成为自然语言处理的基础知识。

核心功能:

利用Word2vec和FastText进行词向量计算,可以在百万数量级的词典和上亿的数据集上进行高效快速的训练,并能很好地度量词与词之间的相似性,在此基础上进行语法分析、语义分析,进而生成语料库,进行舆情分析和生成智能报告。 两者本质的不同体现在 h-softmax的使用。Word2vec的目的是得到词向量,该词向量 最终是在输入层得到,输出层对应的 h-softmax 也会生成一系列的向量,但最终都被抛弃,不会使用。 fasttext则充分利用了h-softmax的分类功能,遍历分类树的所有叶节点,找到概率最大的label(一个或者N个)。

- 产品特性 -

(一)Word2vec
word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。word2vec词向量可以较好地表达不同词之间的相似和类比关系,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

(二)FastText
FastText是一种Facebook AI Research在2016年开源的文本分类器。相对于其它文本分类模型,如SVM,Logistic Regression和neural network等模型,fastText在保持分类效果的同时,大大缩短了训练时间。
FastText适合大型数据+高效的训练速度:能够训练模型“在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇”。
支持多语言表达,利用其语言形态结构,fastText能够被设计用来支持包括英语、德语、西班牙王国语、法语以及捷克语等多种语言。
fastText专注于文本分类,在许多标准问题上实现当下最好的表现(例如文本倾向性分析或标签预测)。

联系方式

Contact us

联系人

李乾韬

电话

010-67801778

手机

18600513192

邮箱

lqt@sd-kbt.com

合作伙伴 :站长工具 - 欧宝体育平台_欧宝体育登陆_欧宝体育官方网址