一、数据准备

首先,需要确定研究对象。聚类分析适用于探究一组变量间的关系,因此需要选择相应的变量。同时,需要对所选择的变量进行数据清洗,包括处理缺失值等。这些工作完成后,将数据导入SPSS中并打开分析菜单中的“聚类分析”功能。

二、聚类分析模型选择

SPSS中提供了多种聚类分析模型,包括K-Means、层次聚类、模糊聚类等。针对不同的数据类型、研究目的和数据结构,需要选择适合的模型。选择后点击“下一步”。

DATASET ACTIVATE DataSet1.
USE ALL.
;Run K-means
CTABLES
  /VLABELS VARIABLES=Var1 Var2 Var3 Var4 DISPLAY=DEFAULT
  /TABLE Var1 [MEAN F40.0] BY Model_label
  /TABLE Var2 [MEAN F40.0] BY Model_label
  /TABLE Var3 [MEAN F40.0] BY Model_label
  /TABLE Var4 [MEAN F40.0] BY Model_label
  /SLABELS POSITION=ROW
  /CATEGORIES VARIABLES=Model_label ORDER=A KEY=VALUE EMPTY=INCLUDE
  /BARCHART
     SCALE=LOGICAL
     BASELINE=MINIMUM
  /COMPARETEST TYPE=CHISQUARE ALPHA=0.05 ADJUST=NONE DISP=None.

三、变量选择

对于选择的模型,需要输入要进行聚类分析的变量。在此阶段,需要对变量的性质、数量和相关性进行仔细分析。选择后点击“下一步”。

SET SEED=34765.
VARSTOCASES
  /MAKE Var FROM var1 var2 var3 var4
  /INDEX=Index(Var1).
USE ALL.
CROSSTABS
  /TABLES=Model_label BY Index
  /FORMAT= AVALUE TABLES
  /STATISTICS=CHISQ
  /CELLS= COUNT EXPECTED OVALUE
  /COUNT ROUND CELL.

四、聚类分析结果解释

聚类分析生成的结果包括聚类簇的标签、聚类簇中心、每个变量在聚类簇中的平均值等。需要对结果进行解释和发现,从而获得更深入的认识。

DIMENSIONS
 /VARIABLES=var1 var2 var3 var4
 /DERIVATION=0
 /PRIORS='(1 2 3 4)'.
CLUSTRINGS KMEANS
 /KMEANS VARIABLES=var1 var2 var3 var4
 /CINO=3
 /CRITERIA=CLUSTER
 /METHOD=KMEANS(K=3)
 /MISSING=LISTWISE
 /PRINT INITIAL
 /PLOT(IC) HORIZONTAL
 /OUTFILE='C:\Users\XXX\Documents\SPSS\Sample data_Fahrenheit Reviews_04052016\output'.

五、聚类分析可视化

聚类分析的结果还可以通过可视化工具进行呈现,包括散点图、热力图等。这些工具可以帮助研究者更加直观地了解聚类分析的结果。

DATASET ACTIVATE DataSet2.
USE ALL.
FORMATS Var1 (F3.1) Var2 (F3.1) Var3 (F3.1) Var4 (F3.1) Model_label (F1.0).
SCATTERPLOT
  /MATRIX(Var1, Var2, Var3, Var4)
  /MISSING=LISTWISE.