导航：首页 > 服务器 >

spark mlilib 聚类 KMeans怎么用

发表于：2025-12-03 作者：千家信息网编辑

千家信息网最后更新 2025年12月03日，这篇文章主要为大家展示了"spark mlilib 聚类 KMeans怎么用"，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下"spark mlilib 聚类

千家信息网最后更新 2025年12月03日spark mlilib 聚类 KMeans怎么用

这篇文章主要为大家展示了"spark mlilib 聚类 KMeans怎么用"，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下"spark mlilib 聚类 KMeans怎么用"这篇文章吧。

聚类使用场景

数据聚类是对于静态数据分析的一门技术，在许多领域内都被广泛地应用，包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等

运行代码如下

package spark.clusteringimport org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.{SparkContext, SparkConf}/**  * 一般来说，分类是指有监督的学习，即要分类的样本是有标记的，类别是已知的；  * 聚类是指无监督的学习，样本没有标记，根据某种相似度度量，将样本聚为　K类．  *  * 聚类KMEANS  * 基本思想和核心内容就是在算法开始时随机给定若干（k）个中心，按照距离原则将样本点分配到各个中心点，  * 之后按照平均法计算聚类集的中心点位置，从而重新确定新的中心点位置．这样不断地迭代下去直至聚类集内的样本满足一定的阈值为止．  *  * Created by eric on 16-7-21.  */object Kmeans {  val conf = new SparkConf()                                     //创建环境变量    .setMaster("local")                                             //设置本地化处理    .setAppName("KMeans")                              //设定名称  val sc = new SparkContext(conf)  def main(args: Array[String]) {    val data = sc.textFile("./src/main/spark/clustering/kmeans.txt")    val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble)))      .cache()    val numClusters = 2 //最大分类数    val numIterations = 20 //迭代次数    val model = KMeans.train(parsedData, numClusters, numIterations)    model.clusterCenters.foreach(println)//分类中心点    //[1.4000000000000001,2.0]    //[3.6666666666666665,3.6666666666666665]  }}