潜在狄利克雷分配(常简称 LDA):一种用于主题建模的概率生成模型,常用来从大量文本中自动发现“主题”(一组经常一起出现的词),并估计每篇文档由哪些主题混合组成。
/ˈleɪtənt dɪˈrɪʃleɪ ˌæləˈkeɪʃən/
We used latent Dirichlet allocation to find topics in customer reviews.
我们用潜在狄利克雷分配从客户评论中发现主题。
By fitting a latent Dirichlet allocation model with ten topics, the researchers compared how political themes shifted across newspapers over time.
研究人员拟合了一个包含十个主题的LDA模型,从而比较政治主题如何随时间在不同报纸中变化。
该术语由三部分构成:latent(“潜在的、未直接观察到的”)指模型中隐藏的主题结构;Dirichlet(狄利克雷)来自数学家 Peter Gustav Lejeune Dirichlet 的姓氏,指一种常用于“概率向量”的先验分布;allocation(分配)强调把词、主题、文档之间的概率“分配/归属”起来。LDA 作为主题建模方法在 2003 年由 Blei、Ng、Jordan 的论文中系统提出并普及。