分类 ‘NLP’

情感计算-基于规则分类

2010年12月27日 16:04:00 由 vanjor 发表 [702 次阅读] 回复 »

情感计算中,很重要的rule classfication thumb1 情感计算 基于规则分类一个问题就是为目标情感数据进行分类,先行的很多文本分类技术与文本聚类技术SVM,K-means等,背后都是利用一些先决的条件,比如SVM的先决条件是建立文本向量空间VSM上。而这些文本分类技术都很少涉及到语义语法分析,或者建立十分微弱的语义语法分析基础上,比如上篇文章《评论潜在方面观点计算》。

本文为学习论文《Sentiment Analysis: A Combined Approach》,提取其中主要的方法-基于规则分类。 着重为基于规则分类RBC与基于统计分类SBC

评论潜在方面观点计算

2010年12月04日 3:03:23 由 vanjor 发表 [844 次阅读] 回复 »

image thumb1 评论潜在方面观点计算本文为国外09年的最新文本挖掘类别论文:

原文:Latent Aspect Rating Analysis on Review Text Data: A Rating Regression Approach

链接:原文Paper展示PPT

个人三天时间完整翻译而成,本文对于理解话题识别,用户潜在观点挖掘,情感计算方面都有很好的借鉴意义。

目前在用户观点情感挖掘方面属于一个十分前沿的话题,广泛应用在产品研究,用户行为分析,推荐系统上。比现行的许多基于文本分类论文都是更为细致的研究,本文中大量运用统计概率学方面知识对话题识别,情感词的渐进识别,权重推断,以及结果估计验证,与应用探讨,值得深入学习。

同时个人认为一个最重要的不足的是,论文中还是主要通过挖掘文本中词语间的关联,类似tf/idf词频统计,先验概率推断等进行文本挖掘分析,而对于语义的理解,句法的解读分析仍然没有考虑在内,这样必然导致结果仍然存在很多偏差与误判,而鉴于语义理解,句法分析尚属一个十分困难的前沿研究领域。文本尤为可佳。

» 阅读更多: 评论潜在方面观点计算

文本情感分析概述

2010年12月01日 18:06:06 由 vanjor 发表 [1,622 次阅读] 回复 »

文本情感分析(Sentiment Analysis): 又称意见挖掘,image 文本情感分析概述简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析。(右图参考论文[2])

应用背景与意义: 互联网(如博客和论坛以及社会服务网络如大众点评)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等. 基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。

本文主要介绍情感分析所要涉及的两个基础概念方面,情感分类主客观识别,情感信息提取,主客体的识别,与情感信息的计算。

» 阅读更多: 文本情感分析概述

支持向量机SVM

2010年11月11日 22:10:51 由 vanjor 发表 [635 次阅读] 回复 »

031609 1027 SVM1 thumb1 支持向量机SVM支持向量机 – Support Vector Machine, 简称SVM(或SV机),是一种监督是学习的方法,广泛应用于统计分类及回归分析中。

其中,(machine,机器)实际上是一个算法。在机器学习(ML)领域里,常把一些算法看做是一个机器。

 

线性回归

2010年11月10日 16:04:21 由 vanjor 发表 [232 次阅读] 回复 »

线性回归-Linear regression

在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合[1]

400px Linear regression thumb 线性回归

带一个自变量的的线性回归:一元线性回归

» 阅读更多: 线性回归

向量空间模型VSM

2010年11月09日 13:01:09 由 vanjor 发表 [877 次阅读] 回复 »

向量空间模型 (VSM:Vector Space Model) 是一个应用于资讯过滤, 资讯撷取, 索引以及评估相关性的代数模型。由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。

向量空间模型(VSM)概念

文件(语料)被视为索引词(关键字)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。在文本检索中,文档与查询词可以表示为以下向量空间模型[1] :

dj = (w1,j,w2,j,…,wt,j)

q = (w1,q,w2,q,…,wt,q)

» 阅读更多: 向量空间模型VSM

TF-IDF统计

2010年11月09日 13:01:21 由 vanjor 发表 [1,245 次阅读] 回复 »

TF-IDF(Term Frequency – Inverse Document Frequency)

TF-IDF是一种用于资讯检索文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,也是建立在向量空间模型理论中的一种统计技术。

» 阅读更多: TF-IDF统计

信息检索基本评价指标-P·R·F

2010年11月08日 21:09:34 由 vanjor 发表 [710 次阅读] 回复 »

任何研究都需要有一个客观的评价体系,信息检索系统也不例外。但是对于一项需要在实际生产生活中应用的系统,其评价导向又必须包含一定的主观性。

信息检索系统性能的两个基本客观指标是召回率(Recall Rate)准确率(Precision Rate),这与绝大多数的模式识别技术相同。

» 阅读更多: 信息检索基本评价指标-P·R·F

Java开源自然语言处理-LingPipe

2010年11月08日 18:06:24 由 vanjor 发表 [1,452 次阅读] 回复 »

LingPipeAlias-i公司开发的一款自然语言处理开源Java软件包,目前最高版本是4.0.1

LingPipe的优势是:

  • 比较全面的覆盖自然语言处理的各个分支,文本分词,聚类,语义情感分析,领域知识学习等等
  • 具有全套在research上免费的源码,样列代码,测试代码(商业与非商业均同一套代码),并且文档详细,对于其中模型所参考的论文都引用出来,适合研究学习.
  • 作为相对开源资源缺少的领域,项目一直持续更新中.

» 阅读更多: Java开源自然语言处理-LingPipe

交叉验证

2010年10月27日 23:11:20 由 vanjor 发表 [677 次阅读] 回复 »

交叉验证(Cross-Validation): 有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。WIKI

交叉验证对于人工智能,机器学习,模式识别,分类器等研究都具有很强的指导与验证意义。
基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.

» 阅读更多: 交叉验证

pixel 交叉验证