1001.特征工程-数据编码-图嵌入

当数据呈现非欧几里得结构(如社交网络、推荐系统中的用户-物品关系)时,传统的向量空间方法失效,需要使用图嵌入技术。

  • DeepWalk

    • 原理: 类似于 Word2Vec,通过随机游走 (Random Walk) 生成节点序列,再用 Skip-gram 学习向量。
    • 特点: 简单易用,但随机游走策略固定,灵活性较差。
  • Node2Vec

    • 原理: 在 DeepWalk 基础上引入 p 和 q 参数控制游走策略。
      pp: 控制返回倾向(结构同质性)。
      qq: 控制远跳倾向(结构随机性)。
    • 特点: 能够灵活平衡“同质性”与“结构性”,在节点分类和链接预测任务中表现更优。
  • LINE (Large-scale Information Network Embedding)

    • 原理: 基于矩阵分解,优化一阶和二阶相似度的定义。
    • 特点: 特别适合处理有向图和带权图,计算效率远高于 DeepWalk。
1
2
3
# 3. 获取图嵌入 (Node2Vec - 伪代码示意)
# 通常需要调用 graph-tool 或 networkx 库配合训练
model_node2vec.fit(graph_data)
-------------本文结束感谢您的阅读-------------