Wasserstein Embedding For Graph Learning
[paper review] : WEGL, ICLR 2021
\((8)\) 의 propagation rule 을 사용해 node classification 을 위한 two-layer GCN 을 보겠습니다.. 먼저 전처리 단계에서 \(\hat{A} = \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}\) 를 계산하여 다음과 같이 두 개의 layer 를 가지는 model 을 만들 수 있습니다.
\[Z = \text{softmax}\left( \hat{A}\;\text{ReLU}\left( \hat{A}XW^{(0)} \right)W^{(1)} \right) \tag{9}\]마지막 output layer 에서 activation function 으로 softmax 를 각 행 별로 적용해줍니다. Loss function 으로 label 이 있는 node 들에 대해서만 cross-entropy error 를 계산합니다.
\[\mathcal{L} = -\sum_{l\in\text{labled}}\sum^{\text{output dim}}_{f=1} Y_{lf}\ln Z_{lf}\]이를 통해 \((9)\) 의 weight matrix \(W^{(0)}\) 와 \(W^{(1)}\) 은 gradient descent 를 통해 업데이트 합니다.
실험 방법 및 데이터에 관해서 더 자세한 설명은 Yang et al., 2016 을 참고하기 바랍니다.
논문에서는 크게 네 가지 dataset : Citeseer, Cora, Pubmed, NELL 을 실험에 사용했습니다.
이들 중 Citeseer, Cora, 그리고 Pubmed 는 citation network dataset 으로, 각 node 는 문서들이며 edge 는 citation link 를 의미합니다. NELL 은 knowledge graph 에서 추출된 이분 그래프 dataset 으로 relation node 와 entity node 모두 사용했습니다.
각 데이터셋에 대한 baseline method 들과 two-layer GCN 의 classification accuracy 는 다음과 같습니다.
GCN 의 정확도가 다른 baseline method 들에 비해 월등히 높은 것을 볼 수 있습니다. 특히 baseline method 들 중 정확도가 가장 높은 Planetoid 와 비교해, GCN 의 수렴 속도가 훨씬 빠르다는 것을 알 수 있습니다.
위에서 제시된 다양한 propagation model 들의 performance 를 비교한 결과는 다음과 같습니다.
\((7)\) 에서 사용한 renormalization trick 이 가장 높은 정확도를 보여줍니다.
\(M = I + D^{-1/2}AD^{-1/2}\) 가 real symmetric matrix 이기 때문에, Courant-Fischer 정리에 의해 \(M\) 의 가장 큰 eigenvalue \(\mu\) 는 다음을 만족합니다.
\[\mu = \sup_{\|x\|=1} x^TMx\]\(L\) 의 정의에 의해 \(M = 2I-L\) 이며 \(L\) 은 positive semi-definite matrix 이기 때문에, \(\|x\|=1\) 를 만족하는 \(x\in\mathbb{R}^N\) 에 대해 다음이 성립합니다.
\[x^TMx =x^T(2I-L)x = 2 - x^TLx \leq 2\]따라서,
\[\mu = \sup_{\|x\|=1} x^TMx \leq 2\]\(I + D^{-1/2}AD^{-1/2}\) 와 \(\tilde{D}^{-1/2}\tilde{A}\,\tilde{D}^{-1/2}\) 의 matrix 를 자세히 살펴보면 다음과 같습니다.
\[I + D^{-1/2}AD^{-1/2} = \begin{cases} 1 & i=j \\ A_{ij}/\sqrt{D_{ii}D_{jj}} & i\neq j \end{cases}\] \[\tilde{D}^{-1/2}\tilde{A}\,\tilde{D}^{-1/2} = \begin{cases} 1/(D_{ii}+1) & i=j \\ A_{ij}/\sqrt{(D_{ii}+1)(D_{jj}+1)} & i\neq j \end{cases}\]먼저 filter 의 개수가 1개일 때를 생각하겠습니다. 각 node 가 \(C\) 차원의 feature vector 를 가질 때, 이를 signal \(X\in\mathbb{R}^{N\times C}\) 로 표현할 수 있습니다.
\[X = \begin{bmatrix} \vert & & \vert \\ x_1 & \cdots & x_C \\ \vert & & \vert \end{bmatrix}\]\(X\) 의 각 column 은 특정 feature 에 대한 signal \(x_{i}\in\mathbb{R}^N\) 입니다. 각 feature 마다 convolutional filter \((6)\) 을 적용해 새로운 feature \(Z\in\mathbb{R}^N\) 를 얻어내는 과정을 다음과 같이 표현할 수 있습니다.
\[\begin{align} Z &= \sum^{C}_{i=1} \hat{A}x_i\theta_i\\ &= \begin{bmatrix} \vert & & \vert \\ \hat{A}x_1 & \cdots & \hat{A}x_C \\ \vert & & \vert \end{bmatrix} \begin{bmatrix} \theta_1 \\ \vdots \\ \theta_C \end{bmatrix} \\ \\ &= \hat{A}\; \begin{bmatrix} \vert & & \vert \\ x_1 & \cdots &x_C \\ \vert & & \vert \end{bmatrix} \begin{bmatrix} \theta_1 \\ \vdots \\ \theta_C \end{bmatrix} = \hat{A}X\Theta \end{align}\]이제 Filter 의 개수가 \(F\) 개라면, \(i\) 번째 filter 로 만들어진 새로운 feature \(Z_i = \hat{A}X\Theta_i\) 들에 대해 다음과 같이 정리할 수 있습니다.
\[\begin{align} Z &= \begin{bmatrix} \vert & & \vert \\ Z_1 & \cdots & Z_F \\ \vert & & \vert \end{bmatrix} = \begin{bmatrix} \vert & & \vert \\ \hat{A}X\Theta_1 & \cdots & \hat{A}X\Theta_F \\ \vert & & \vert \end{bmatrix} \\ \\ &= \hat{A}X\begin{bmatrix} \vert & & \vert \\ \Theta_1 & \cdots &\Theta_F \\ \vert & & \vert \end{bmatrix} = \hat{A}X\Theta \end{align}\]
Joan Bruna, Wojciech Zaremba, Arthur Szlam, and Yann LeCun. Spectral networks and locally connected networks on graphs. In International Conference on Learning Representations (ICLR), 2014.
M. Henaff, J. Bruna, and Y. LeCun. Deep Convolutional Networks on Graph-Structured Data. arXiv:1506.05163, 2015.
Michael Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in neural information processing systems (NIPS), 2016.
Thomas N. Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. In International Conference on Learning Representations (ICLR), 2017.
David K Hammond, Pierre Vandergheynst, and Remi Gribonval. Wavelets on graphs via spectral graph theory. Applied and Computational Harmonic Analysis, 30(2):129–150, 2011.
F. R. K. Chung. Spectral Graph Theory, volume 92. American Mathematical Society, 1997.
Leave a comment