Spark LDA 实例
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,Spark LDA 实例一、准备数据数据格式为:documents: RDD[(Long, Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转
千家信息网最后更新 2025年12月02日Spark LDA 实例
Spark LDA 实例
一、准备数据
数据格式为:documents: RDD[(Long, Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;
通过分词以及数据格式的转换,转换成RDD[(Long, Vector)]即可。
二、建立模型
import org.apache.spark.mllib.clustering._val ldaOptimizer = new OnlineLDAOptimizer().setOptimizeDocConcentration(true)val lda = new LDA()lda.setK(params.k).setMaxIterations(params.maxIterations).setDocConcentration(params.docConcentration).setTopicConcentration(params.topicConcentration).setOptimizer(ldaOptimizer).setCheckpointInterval(10).setSeed(1234)val modelLDA: LDAModel = lda.run(corpus)modelLDA.save(sc.sparkContext, params.modelPath)三、模型参数
case class NewsParams( k: Int = 100, maxIterations: Int = 100, docConcentration: Double = -1, topicConcentration: Double = -1, stopWordFile: String = "zh_stopwords.txt", modelPath: String = "LDAModel.14.100", ldaJsonPath:String = "ldaModel.14.200.json", vocabPath: String = "vocab_info" )四、结果输出
topicsMatrix以及topics(word,topic))输出。mllib上的lda不是分布式的,目前只存储topic的信息,而不存储doc的信息,如果获取只能使用ml中的lda或者通过以下代码实现。
val ldaModel = lda.run(documents)val distLDAModel = ldaModel.asInstanceOf[DistributedLDAModel]distLDAModel.topicDistributions
数据
信息
文章
格式
模型
存储
输出
实例
代码
分布式
参数
向量
结果
准备
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
e换电现行软件开发关键节点
手机网络安全管控
高清的网络安全接入方案
网络安全防护设计规范
上海一站式软件开发优势
企业网络安全性能测试
加强网络安全监测预警
临汾软件开发厂家报价
有计算机网络技术的公办学校
什么是gsm的中央数据库
石家庄鲲鹏服务器
数据库相关技术分析
中国的IPV9有几个服务器
助力冬奥党员保障网络安全
淘宝自学软件开发
手机扫描软件开发公司
家庭服务器 影音管理
四川眉山国家网络安全宣传
pssql无法登陆数据库
服务器天天中毒怎么办
软件开发实践内容
龙岩技师网络安全
图形化上位机软件开发
沭阳自动化网络技术市场
软件开发辛苦吗
软件开发科研报告
gitlab 服务器
数组的内容来自于数据库
数据库中默认值无效怎么改正
加庭网络安全论文