GNN学习 Node Classification(持续更新中)

ANewPro / 2023-07-21 / 原文

GNN学习 Node Classification

任务：已知图中一部分节点的标签，如何将分配标签到其它节点上

Node Classification

给一部分节点的标签，预测没有标签的节点的标签，这是一个半监督节点分类任务

message passing

相似的节点中存在链接

集体分类(collective classification)：一起给网络中的所有节点分配标签

有三种实现技术

Relational classification
Iterative classification
Belief classification

Correlations Exists in Networks

相似的行为在网络中会互相关联

Correlation:相近的节点有相同的分类

导致关联性的主要以来类型

同质性(homophily)：个体特征影响社交连接
影响(influence)社交连接影响个体特征

Homophily

相似节点会倾向于交流和关联

例子：同领域的研究者更容易建立联系

Influence

社交链接会影响个人行为

例子：用户将喜欢的音乐推荐给朋友

Classification with Network Data

相似的节点会在网络中更加靠近，或者直接相连

Guilt-by-association：如果我与具有X的标签相连，那么我很可能也具有标签X

预测节点v的标签要

v的特征
v邻居的标签
v邻居的特征

Collective Classification

是一个概率框架

根据马尔科夫假设：节点v的标签$Y_v$取决于其邻居$N_v$的标签，也就是$P(Y_v)=P(Y_v\mid N_v)$

Collective Classification有三个步骤：

分配节点初始标签(Local Classifier)
捕获关系(Relational Classifier)
传播关系(Collective Inference)

Local Classifier

基于节点的属性预测标签
标准分类任务
不使用网络结构信息

Relational Classifier

基于邻居节点的标签和特征来预测节点标签
使用了网络结构信息

Collective Inference

在每个节点上迭代的应用relational classifier
迭代至邻居间标签不一致最小化
网络结构影响最终预测结果

Relational Classification and Iterative Classification

Relational classifiers

基本思想：节点v的类概率$Y_v$是其邻居类概率的加权平均值

对应有标签节点，就初始化为其真实标签

对于无标签节点。就初始化为0.5

以随机顺序更新所有无标签节点，直至收敛或达到最大迭代次数

对于每个节点v和标签c，我们采用公式

$P(Y_v=c)=\frac{1}{ {\textstyle \sum_{(v,u)\in E}}} {\textstyle \sum_{(v,u)\in E}}A_{v,u}P(Y_u=c) $

来对其进行更新

其中$A_{v,u}$是边v到u的权重

$P(Y_v=c)$表示节点v有标签c的概率

当然，对于最开始已经有标签的节点就不进行更新，只更新最开始没有标签，需要我们去预测的节点

当有节点连续两次迭代不发生变化，我们认为这个节点已经收敛了，之后我们就不再更新这个节点的值了

缺点：

可能不会收敛
无法利用节点的特征信息

Iterative classification

Loopy belief propogation