分词和词性标注是文本处理分析的基础。目的是将文本句子切分成词语序列,并标识出每个词语的词性,如名词、动词、形容词等。
词频统计对文本中各个词语的出现次数进行统计,在数据量较大时可用于关键词识别、热点和变化趋势分析。
实体识别从文本中识别和提取人物、机构、位置和时间等实体,可在此基础上进一步抽取出实体之间的相互关系,比如人物之间的亲属、朋友和敌对关系,人物和机构之间的投资、雇佣关系等。
依存句法分析根据给定的语法体系,自动推导出句子的句法结构,给出句子各成分之间的依存关系。
词向量是通过训练将每一个词映射到同一个向量空间,可以根据词与词在向量空间的距离来判断它们在词法、语义上的相似性。
文本审核自动检查文本内容,识别其中涉及的反动、暴恐、分裂国家等违规内容,及早发现内容风险。
情感分析对带有情感倾向的短文本进行分析,自动提取其中蕴含的积极、中性、消极等情绪。
{{emotionResult==-1?'暂无数据':(emotionResult==0?'非负面情绪':'负面情绪')}}
重复文本检测实现海量文本相似度的快速判断,可用于千万数量级文本的快速去重。
当前文本
{{orgText}}
检测文本