潜在狄利克雷分配(LDA)

放风筝的人2023-04-23  20

潜在狄利克雷分配(LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。

LDA模型是文本集合的生成概率模型。假设每个文本由话题的一个多项式分布表示,每个话题由单词的一个多项式分布表示,特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。先验分布的导入使LDA能够更好地应对话题模型学习的过拟合现象。

LDA的文本集合的生成过程如下:首先随机生成一个文本话题分布,之后再该文本的每个位置,依据该文本的话题分布随机生成一个话题,然后在该位置依据该话题的单词分布随机生成一个单词,直至文本的最后一个位置,生成整个文本。重复以上的过程生成所有文本。

LDA模型是含隐变量的概率图模型。模型中,每个话题的单词分布,每个文本的话题分布,文本的每个位置的话题是隐变量;文本的每个文职的单词是观测变量。LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样和变分EM算法。前者是蒙特卡洛法,后者是近似计算。

多项分布是一种多元离散随机变量的概率分布,是二项分布的扩展。

假设重复进行n次独立随机试验,每次试验可能出现的结果有k种,第i中结果出现的概率为 ,第i种结果出现的次数为 。如果用随机变量 ,表示试验所有可能结果的次数,其中 表示第i种结果出现的次数,那么随机变量 服从多项分布。

若元离散随机变量的概率密度为

其中 ,,则称随机变量X服从参数为(n,p)的多项分布,记作

当试验的次数n为1时,多项分布变成类别分布。类别分布表示试验可能出现的k种结果的概率。显然多先分布包含类别分布。

狄利克雷分布是一种多元随机变量的概率分布,是贝塔分布的扩展。在贝爷斯学习中,狄利克雷分布作为多项分布的先验概率使用。

多元连续型随机变量 的概率密度函数为

其中 ,称随机变量 服从参数为 的狄利克雷分布,记作

式中

具有以下性质

当s是自然数时,有

则狄利克雷分布的密度函数可以写成

是规范化因子,称为多元贝塔函数(称为扩展的贝塔函数)。由密度函数性质

狄利克雷有一些重要性质:(1)狄利克雷分布属于指数分布簇(2)狄利克雷分布是多项分布的共轭先验

贝叶斯学习中常使用共轭分布,如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布,先验分布称为共轭先验。如果多项分布的先验分布是狄利克雷分布,作为先验分布的狄利克雷分布的参数又称为超参数,使用共轭先验分布的好处是便于从先验分布计算后验分布。

将样本数据表示为D,目标是计算样本数据D给定条件下参数 的后验概率 ,对于给定样本数据D,似然函数是

假设随机变量 服从狄利克雷分布 其中 为参数,则 的先验分布为

根据贝爷斯规则,在给定样本数据D和参数a的条件下, 的后验概率分布是

狄利克雷的后验分布等于狄利克雷分布参数 加上多项分布的观测技术

潜在狄利克雷分配(LDA)是文本集合的生成概率模型。模型假设话题由单词的多项分布表示,文本由话题的多项分布表示,单词分布和话题分布的先验分布都是狄利克雷分布。文本内容的不同时由于话题分布不同。

LDA模型表示文本集合的自动生成过程:首先,基于单词分布的先验分布(狄利克雷分布)生成多个单词分布,即决定多个话题内容;之后基于话题分布的先验分布(狄利克雷分布)生成多个话题分布,针对每个话题,基于话题的单词分布生成单词,整体构成一个单词序列,即生成文本,重复这个过程生成所有文本。文本的单词序列是观测变量,文本的话题序列是隐变量,文本的话题分布和话题的单词分布也是隐变量。

可以认为LDA是PLSA的扩展,相同点都假设话题是单词的多项分布,文本是华话题的多项分布。不同点LDA使用狄利克雷分布作为先验,而PLSA不使用先验分布(或者说假设先验分布为均匀分布),两者对文本生成过程有不同假设;学习过程LDA基于贝叶斯学习,PLSA基于极大似然估计。LDA的优点是,使用先验概率分布,可以防止学习过程中产生过拟合。

使用三个集合:一是单词集合 ,其中 是第v个单词, ,V是单词个数。二是文本集合 ,其中 ,其中 是文本 的第n个单词, , 是文本 中单词个数。三是话题集合 ,其中, 是第k个话题, ,K是话题的个数。

每一个话题 是由一个单词的条件概率分布 决定的, 。分布 服从多项分布(严格意义上类别分布),其参数为 。参数 是V维向量 服从狄利克雷分布(先验分布),其超参数为 。参数 ,其中 表示 生成单词 的概率。所有话题的参数向量构成 矩阵, ,超参数 也是V维向量

每一个文本 由一个话题的条件概率分布 决定, ,分布 服从多项分布(严格意义上的类别分布),其参数为 ,参数 服从狄利克雷分布(先验分布),其超参数为a。参数 是K维向量 ,其中 ,其中 表示文本 生成话题 的概率。所有文本构成参数构成一个MK矩阵 ,超参数a也是一个K维向量

每一个文本 中的每一个单词 由该文本的话题分布 以及所有话题的单词分布 决定

LDA本质上是一个概率图模型,图为LDA作为概率图模型的板块表示,图中结点表示随机变量,实心结点是观测变量,空心结点是隐变量;有向边表示概率依存关系;矩形(板块)内数字表示重复的次数。

结点 表示模型的超参数,结点 表示话题的单词分布的参数,结点 表示文本的话题分布的参数,结点 表示话题,结点 表示单词。结点 指向结点 ,重复K次,表示根据超参数 生成K个话题的单词分布参数 ;结点a指向结点 ,重复M次,表示根据超参数a生成M个文本的话题分布参数 ;结点 指向 ,重复N词,表示根据文本的话题分布 生成 个话题 ;结点 指向结点 ,同时K个结点 也指向结点 ,表示根据话题 以及K个话题的单词 生成单词 。LDA是相同的随机参数被重复多次使用的概率图模型。

潜在狄利克雷分配(LDA)的学习(参数估计)是一个复杂的最优化问题,很难精确求解。常用近似求解的方法有吉布斯抽样和变分推理

吉布斯抽样的优点是实现简单,缺点是迭代次数可能较多。

LDA模型的学习,给定文本(单词序列)的集合 ,其中 是第m个文本集合的单词序列,即 ,超参数 已知。目标是要推断

吉布斯抽样,是一种常用的马尔科夫链蒙特卡罗法。为了估计多元随机变量x的联合概率分布p(x),吉布斯抽样法选择x的一个分量,固定其他分量,按照其条件概率分布进行随机抽样,一次循环对每一个分量执行这个操作,得到联合分布p(x)的一个随机样本,重复这个过程,在燃烧期后,得到联合概率分布p(x)的样本集合。

LDA模型采通常采取收缩的吉布斯抽样方法,基本想法是,通过对隐变量 积分,得到边缘概率分布 (也是联合分布),其中w是可观测变量,z是不可观测的。对后验概率分布 进行吉布斯抽样,得到分布 的样本集合;再利用这个样本集合对参数 和 进行估计,最终得到模型 所有的参数估计。

这里变量 是已知的,分母相同,可以不预考虑。联合概率分布 的表达式可以进一步分解为

两个因子可以分别处理

推导第一个因子 的表达式

其中 是k个话题生成单词集合第v个单词的概率, 是数据中第k个话题生成第v个单词的次数。

其中

第二个因子 的表达式也可以类似推导。首先

其中 是第m个文本生成第k个话题的概率, 是数据根据第m个文本生成的第k个话题,于是

式中 ,可得

通过吉布斯抽样得到的分布 的样本,可以得到变量z的分配值,也可以估计变量 。

变分推理是贝叶斯学中常用的,含隐变量模型的学习和推理方法。变分推理和马尔科夫蒙特卡洛(MCMC)属于不同的技巧。MCMC通过随机抽样的方法近似统计模型的后验概率,变分推理则通过解析的方法计算模型的后验概率。

变分推理的基本想法如下,假设模型是联合桂林分布 ,其中x是观测变量,z是隐变量,包括参数。目标是学习模型的后验概率分布p(z|x),用模型进行概率推理。但这是一个复杂的分布,直接估计分布的参数很困难,所以考虑使用概率分布q(z)近似条件桂林分布p(z|x),用KL散度D(q(z))||p(z|x))计算两者的相似度,q(z)称为变分分布。如果能找到与p(z|x)在KL散度意义下的近似分布 ,则可以用这个分布近似p(z|x)

KL散度可以写成以下形式

将变分EM算法应用到LDA模型的学习上,首先定义具体的变分分布,推导证据下界的表达式,接着推导变分分布的参数和LDA模型的参数的估计形式,最后给出LDA模型的变分EM算法

文本的单词序列 ,对应的话题序列 ,以及话题分布 ,和随机变量 的联合概率分布是

定义基于平均场的变分分布

其中 是可观测变量, 是隐变量, 是参数

定义基于平均场的变分分布

其中 是狄利克雷分布参数, 是多项分布参数,变量 的各个分量都是条件独立的,目标是求KL散度意义下最相近的变分分布 以及近似LDA模型的后验概率分布

由此可得到一个文本的证据下界

所有文本的证据下界为

为了求证据下界 的最大化,首先写出证据下界的表达式。为此展开证据下界表达式

根据变分参数 ,模型参数 继续展开,并将展开式的每一项写成一行

式 是对数伽马函数,即

第一项推导,求 ,是关于分布 的数学期望

其中

所以

故得

式中 分别表示第k个话题的狄利克雷分布参数

第二项推导,求 是关于分布 的数学期望

式中 表示文档第n个位置的单词由第k个话题产生的概率, 表示第k个话题的狄利克雷分布参数。

第三项推导,求 是关于分布 的数学期望

式中 表示文档第n个位置的单词由第k个话题产生的概率, 表示在第n个位置的单词是单词集合的第v个单词时取1,否则取0, 表示第k个话题生成单词集合第v个单词的概率

第四项推导,求

LDA是车道偏离警示系统的意思。LDA可是个好东西,应该说所有的车道偏离预警系统都是好东西。当车辆偏离车道时,警告驾驶员。

车道偏离警示系统通过摄像头识别道路标线,在车辆未打开转向信号灯的情况下,当车辆行驶偏离车道时,通过警示音和仪表盘显示的信息提醒驾驶者,从而预防因车辆偏离车道而引发事故。

车载单镜头摄像头能够监测车辆相对于白色或**车道标记的位置,当汽车开始离开其车道而没有使用转向信号时,司机就会得到听觉与视觉的警报。

扩展资料:

LDA功能的存在,可以帮助驾驶员来改正变道时不打转向灯的习惯。当LDA开启,不打转向灯就进行变道时,方向盘会提供辅助,使回正方向,停留在当前车道,以避免突然变道而带给后方车辆措手及。所以LDA的存在,会使人养成先打转向灯,观察周围情况再酌情变道的良好驾驶习惯。

LDA 二异丙基胺基锂

结构简式((CH3)2CH)2N-Li+

英文名称:Lithium diisopropylamide

外观:棕**溶液

密度:0812 g/mL at 25 °C ,加入024%稳定剂,低温保存。

用途:非常有名的大位阻强碱,不亲核碱,只能与质子作用而不能发生其他的亲核反应,用于形成碳负离子。

制备:二异丙基胺与丁基锂反应。

性质: 凝固点-22℃。可燃性液体。对空气与水敏感。

由二异丙胺与金属锂于低温下反应制得。是有机合成中常用的强碱。

就是作为碱,去质子化

一般来说,亲核性和碱性是同时存在,相互竞争的

但同时,亲核取代反应也和试剂的空间大小有关

很显然的,体积大,就不容易进攻,就好像胖子挤不进小巷一样

而像LDA这样的碱,它本身应该具有碱性和亲核性,但是负离子体积太大,所以没法亲核进攻,只能作为碱

而碱,是不在意体积的,因为碱性是平衡问题,碱性够强质子就一定能下来

类似的还有DBU,KHMDS

lda与二氧化碳反应,在强碱的作用下进行反应

以4-三氟甲基吡啶类化合物为起始原料,在二异丙基氨基锂(lda)等强碱的作用下与二氧化碳反应,然后酸化得到目标化合物

lda与二氧化碳反应,在强碱的作用下进行反应

以4-三氟甲基吡啶类化合物为起始原料,在二异丙基氨基锂(lda)等强碱的作用下与二氧化碳反应,然后酸化得到目标化合物

1 如果缓解单机速度和内存问题,利用优质“少量”数据学习模型。减少corpus数量,减少词数量。预处理主要包括:1)过滤长度太短的doc ; 2)剔除相似的doc;3)去除一些TF/DF较低 的词;4)按照词性等去停用词,去除标点、数字、过长的词 等;5)合并doc,缓解短文本问题。(非本项目)。

对于数据中特殊停用词的处理方法,通常的做法是运行一遍LDA,观察各个话题,挑出各个话题中的停用词,把他们滤除,再运行一遍LDA。

2 以Perplexity为观察标准,topic个数K,由小变大,观察大概多少合适。 一个经验设置是K × 词典的大小 约等于 语料库中词的总数(没尝试)。

3 以Perplexity为观察标准,观察每迭代N次后,指标的变化。   确保迭代次数足够多。前期的迭代返回一些无用的(极其相似的)话题,但是继续迭代多次后结果明显改善。我们注意到这对EM算法尤其有效。

4 alpha是一个对称的Dirichlet分布的参数,值越大意味着越平滑(更正规化)。alpha越大,先验起的作用就越大,推导的topic分布就越倾向于在每个topic上的概率都差不多。

5 SparkLda : To get a DistributedLDAModel instead of a LocalLDAModel, you need to use the Expectation-Maximization (EM) optimizer instead of the default Online Variational Bayes (online) one

6 SparkLda :  特征变换类的Pipeline API  对于LDA的文字预处理工作极其有用;重点查看Tokenizer,StopwordsRemover和CountVectorizer接口。

7 Topic Model的训练也是数据拟合,找出latent topic最大训练语料库的似然概率,当不同类的数据不平衡时,数量量少的主题可能会被数据量多的主题主导,导致数据量少的被忽略。LDA本来就倾向于拟合高频的topic。LDA很多奇怪的结果大多都是因为词的共现导致的,一种衡量词共现的指标是PMI。

8 数据量大后,LDA和PLSA的效果差不多,但是PLSA更容易并行化。LDA和PLSA的最大区别在于LDA对于Doc的Topic分布加上了一层先验,Doc-topic分布是当作模型变量,而LDA则只有一个超参数,Doc-Topic分布则是隐藏变量。在预测的时候,plsa是求一个似然概率,lda则是有两项,先验乘以似然。

9 LDA在文本领域中,把word抽象成topic。类似,LDA也可以用在其它任务中,我们在信用评估中,直接把每个用户当成一个文档,文档中的词是每个关注的人,得到的topic相当于是一个用户group,相当于对用户进行聚类。还有,把微博中的@/rt的人当作word。>

以上就是关于潜在狄利克雷分配(LDA)全部的内容,包括:潜在狄利克雷分配(LDA)、lda是什么意思 车上、LDA是什么有机化学物质,有什么性质等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

转载请注明原文地址:https://juke.outofmemory.cn/read/3640040.html

最新回复(0)