Wasserstein Embedding For Graph Learning
[paper review] : WEGL, ICLR 2021
\((8)\) 의 propagation rule 을 사용해 node classification 을 위한 two-layer GCN 을 보겠습니다.. 먼저 전처리 단계에서 \(\hat{A} = \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}\) 를 계산하여 다음과 같이 두 개의 layer 를 가지는 model 을 만들 수 있습니다.
\[Z = \text{softmax}\left( \hat{A}\;\text{ReLU}\left( \hat{A}XW^{(0)} \right)W^{(1)} \right) \tag{9}\]마지막 output layer 에서 activation function 으로 softmax 를 각 행 별로 적용해줍니다. Loss function 으로 label 이 있는 node 들에 대해서만 cross-entropy error 를 계산합니다.
\[\mathcal{L} = -\sum_{l\in\text{labled}}\sum^{\text{output dim}}_{f=1} Y_{lf}\ln Z_{lf}\]이를 통해 \((9)\) 의 weight matrix \(W^{(0)}\) 와 \(W^{(1)}\) 은 gradient descent 를 통해 업데이트 합니다.
실험 방법 및 데이터에 관해서 더 자세한 설명은 Yang et al., 2016 을 참고하기 바랍니다.
논문에서는 크게 네 가지 dataset : Citeseer, Cora, Pubmed, NELL 을 실험에 사용했습니다.
이들 중 Citeseer, Cora, 그리고 Pubmed 는 citation network dataset 으로, 각 node 는 문서들이며 edge 는 citation link 를 의미합니다. NELL 은 knowledge graph 에서 추출된 이분 그래프 dataset 으로 relation node 와 entity node 모두 사용했습니다.
각 데이터셋에 대한 baseline method 들과 two-layer GCN 의 classification accuracy 는 다음과 같습니다.
GCN 의 정확도가 다른 baseline method 들에 비해 월등히 높은 것을 볼 수 있습니다. 특히 baseline method 들 중 정확도가 가장 높은 Planetoid 와 비교해, GCN 의 수렴 속도가 훨씬 빠르다는 것을 알 수 있습니다.
위에서 제시된 다양한 propagation model 들의 performance 를 비교한 결과는 다음과 같습니다.
\((7)\) 에서 사용한 renormalization trick 이 가장 높은 정확도를 보여줍니다.
\(M = I + D^{-1/2}AD^{-1/2}\) 가 real symmetric matrix 이기 때문에, Courant-Fischer 정리에 의해 \(M\) 의 가장 큰 eigenvalue \(\mu\) 는 다음을 만족합니다.
\[\mu = \sup_{\|x\|=1} x^TMx\]\(L\) 의 정의에 의해 \(M = 2I-L\) 이며 \(L\) 은 positive semi-definite matrix 이기 때문에, \(\|x\|=1\) 를 만족하는 \(x\in\mathbb{R}^N\) 에 대해 다음이 성립합니다.
\[x^TMx =x^T(2I-L)x = 2 - x^TLx \leq 2\]따라서,
\[\mu = \sup_{\|x\|=1} x^TMx \leq 2\]\(I + D^{-1/2}AD^{-1/2}\) 와 \(\tilde{D}^{-1/2}\tilde{A}\,\tilde{D}^{-1/2}\) 의 matrix 를 자세히 살펴보면 다음과 같습니다.
\[I + D^{-1/2}AD^{-1/2} = \begin{cases} 1 & i=j \\ A_{ij}/\sqrt{D_{ii}D_{jj}} & i\neq j \end{cases}\] \[\tilde{D}^{-1/2}\tilde{A}\,\tilde{D}^{-1/2} = \begin{cases} 1/(D_{ii}+1) & i=j \\ A_{ij}/\sqrt{(D_{ii}+1)(D_{jj}+1)} & i\neq j \end{cases}\]먼저 filter 의 개수가 1개일 때를 생각하겠습니다. 각 node 가 \(C\) 차원의 feature vector 를 가질 때, 이를 signal \(X\in\mathbb{R}^{N\times C}\) 로 표현할 수 있습니다.
\[X = \begin{bmatrix} \vert & & \vert \\ x_1 & \cdots & x_C \\ \vert & & \vert \end{bmatrix}\]\(X\) 의 각 column 은 특정 feature 에 대한 signal \(x_{i}\in\mathbb{R}^N\) 입니다. 각 feature 마다 convolutional filter \((6)\) 을 적용해 새로운 feature \(Z\in\mathbb{R}^N\) 를 얻어내는 과정을 다음과 같이 표현할 수 있습니다.
\[\begin{align} Z &= \sum^{C}_{i=1} \hat{A}x_i\theta_i\\ &= \begin{bmatrix} \vert & & \vert \\ \hat{A}x_1 & \cdots & \hat{A}x_C \\ \vert & & \vert \end{bmatrix} \begin{bmatrix} \theta_1 \\ \vdots \\ \theta_C \end{bmatrix} \\ \\ &= \hat{A}\; \begin{bmatrix} \vert & & \vert \\ x_1 & \cdots &x_C \\ \vert & & \vert \end{bmatrix} \begin{bmatrix} \theta_1 \\ \vdots \\ \theta_C \end{bmatrix} = \hat{A}X\Theta \end{align}\]이제 Filter 의 개수가 \(F\) 개라면, \(i\) 번째 filter 로 만들어진 새로운 feature \(Z_i = \hat{A}X\Theta_i\) 들에 대해 다음과 같이 정리할 수 있습니다.
\[\begin{align} Z &= \begin{bmatrix} \vert & & \vert \\ Z_1 & \cdots & Z_F \\ \vert & & \vert \end{bmatrix} = \begin{bmatrix} \vert & & \vert \\ \hat{A}X\Theta_1 & \cdots & \hat{A}X\Theta_F \\ \vert & & \vert \end{bmatrix} \\ \\ &= \hat{A}X\begin{bmatrix} \vert & & \vert \\ \Theta_1 & \cdots &\Theta_F \\ \vert & & \vert \end{bmatrix} = \hat{A}X\Theta \end{align}\]
