ConvLSTM簡介 — Convolutional LSTM Network — A Machine Learning Approach for Precipitation Nowcasting
NIPS 2015 paper
Xingjian Shi, Zhourong Chen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong, Wang-chun Woo, “Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting”arXiv:1506.04214
Github上面有許多ConvLSTM的重制,這邊貼Pytorch版本的 Github
之所以看這篇是因為之前看了一篇CVPR2018的paper:Attentive-GAN簡介,
他的Generator部分是使用ConvLSTM的架構,
因此來看看。
簡介
此論文的目標是希望可以預測天氣,
給定前幾個小時的圖片,可以預測出之後幾個小時會不會下雨,
根據上述問題可知,除了要能夠處理圖片的部分,還要處理時序的問題。
而這篇論文主要的貢獻是提出了ConvLSTM的架構,
提出了如何將Convlution應用至LSTM的想法。
而此架構ConvLSTM是用fully connected LSTM (FC-LSTM)的延伸。
天氣預測相關的簡介
(根據此篇論文的說法: 19, Sep, 2015
現存的天氣預測方法主要有兩種
Numerical weather prediction (NWP) model
就是建一堆模型,觀測環境中的變化,非常複雜,運算速度慢。
Radar echo extrapolation based methods 中譯是基於雷達回波外推的方法
主要透過雷達,可獲得一張圖。
之後透過光流法去做演算法,
目前最成功的方法是Real-time Optical flow by Variational methods for Echoes of Radar (ROVER)。
而此篇主要會和ROVER方法進行比較。
概念
我們的任務是希望可以透過以往的前 J 張圖片,可以產生後面 K 張的圖片。
FC-LSTM
如果對FC-LSTM不熟的建議先去搜尋一下,其實和普通的差不多,
只是他的 input / output / state 都是 1D的向量vector
下面不做詳細的介紹。
‘◦’ denotes the Hadamard product:
ConvLSTM
下方為本次架構ConvLSTM
‘∗’ denotes the convolution operator and ‘◦’, as before, denotes the Hadamard product
主要的不同是這邊的 input / output / state 都是 3D的張量(Tensor) (timestamps, row, column)
而實際上在實作的時候是 5D(batchsize, timestamps, channel size, row, column)
上圖展示的是原本2D的圖片為(X, Y),
而這邊的P是(X, Y)中的某一點,
而當添加了時序timestamps後,
P會從(x,y) => (x, y, z), z:timestamps
也因此從2D => 3D
這邊其實是和ConvLSTM的公式做示意圖,
而不管是outputs — C 、 hidden states — H 又或是每個 timestamp 的 input(x) 都是 2D 的矩陣。
而每個 timestamp 的 output — C 或是 hidden state — H,仰賴著輸入 x(image),
並起從此圖能夠看出CNN的特性,
可以透過 kernal size 了解 pixel 周圍的關聯性。
Encoding-Forecasting Structure
這部分的架構概念與此篇Unsupervised Learning of Video Representations using LSTMs,
我的理解是一開始copy權重(虛線部分),
那之後都是提取Encoding Network的最後一層,
當作Forecasting Network的第一層,
接下來用同樣的概念iteration的做LSTM
成果比較
這邊展示輸入前10個frame,
他會預測出後10個frame,
至少分得出是3個不同的數字,
但是預測到後來越來越模糊,有待加強。
下方不詳細介紹,
因為實驗的設定有點繁瑣,
有興趣的去看論文,
簡單來說就是有比 FC-LSTM 和 Rover 好
結論
這篇論文解決了天氣預測的問題,
並且提出了一個ConvLSTM架構,
除了可以透過CNN解決空間上的相依性(x, y),
還可以透過LSTM解決時間上的相依性(z)。
本篇論文的未來展望是希望可以結合此架構去做影片的動作偵測。
參考資料:
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting
Unsupervised Learning of Video Representations using LSTMs