我们知道,一般而言,文档被分组为主题。 有时需要确定文本中与特定主题相对应的模式。 这样做的技术称为主题建模。 换句话说,可以说主题建模是一种揭示给定文档集合中抽象主题或隐藏结构的技术。
可以在以下场景中使用主题建模技术 -
文本分类 在主题建模的帮助下,分类可以得到改进,因为它将相似的单词分组在一起,而不是分别将每个单词用作特征。
推荐系统 在主题建模的帮助下,可以使用相似性度量来构建推荐系统。
主题建模可以通过使用算法来实现。 算法如下 -
潜在狄利克雷分配(LDA) 该算法是主题建模中最流行的算法。 它使用概率图形模型来实现主题建模。 我们需要在 Python 中导入 gensim 包以使用 LDA slgorithm。
潜在语义分析(LDA)或潜在语义索引(LSI) 该算法基于线性代数。 基本上它在文档术语矩阵上使用 SVD(奇异值分解)的概念。
非负矩阵分解(NMF) 它也基于线性代数。
上述所有用于话题建模的算法都将主题数量作为参数,将文档 - 词汇矩阵作为输入,将 WTM(词主题矩阵)和TDM(主题文档矩阵)作为输出。