在VMD上可視化hdf5格式的分子軌跡文件

技術背景

在處理分子動力學模擬的數據時,不可避免的會遇到眾多的大軌跡文件。因此以什麼樣的格式來存儲這些龐大的軌跡數據,也是一個在分子動力學模擬軟件設計初期就應該妥善考慮的問題。現有的比較常見的方式,大致可以分為存成明文的和存成二進制的兩種方式。這兩種方式各有優劣,明文存儲可讀性較好,二進制文件壓縮率較好,不會佔用太大的空間。又因為我們也不會經常性的去打開軌跡文件一個一個的檢索,因此二進制文件是一個更好的存儲格式選項。如果不僅僅限於分子動力學模擬的領域,在其他數據領域經常用的格式有npz等。而經過各種格式的對比之後,發現hdf5格式是一種非常適合用來存儲分子動力學軌跡的文件,其原因主要有:

  1. 層級結構,可讀性相對較好,有silx view這樣輕量級的軟件可以直接高效讀取hdf5文件的內容;
  2. 壓縮率高,存儲下來的文件大小遠小於csv等明文數據格式;
  3. 支持數據幀讀取,有很多高效的數據處理軟件如vaex專門針對hdf5格式的文件讀、寫、可視化等進行了優化;
  4. 在傳統量子化學領域,hdf5格式的文件就得到了大量的使用,在分子動力學中使用hdf5格式有向上兼容的一層含義。

在確定需要選擇hdf5格式的文件作為分子動力學軌跡的存儲格式之後,我們需要考慮下一步如何在已有的可視化軟件,如VMD中,去展示hdf5格式的軌跡文件。有一個開源軟件叫VMD-h5mdplugin專門支持了在VMD上顯示hdf5格式的分子軌跡文件。但是原版的軟件有幾個缺陷:

  1. 直接加載的hdf5格式的文件,無法區分原子大小,顯示的原子都一樣大;
  2. 不能支持NewCartoon等常用的蛋白結構顯示方法;

為此,來自深圳灣實驗室的楊奕老師單獨對該插件進行了改進優化,Fork的倉庫地址為:VMD-h5mdplugin,接下來我們看下如何安裝與使用該插件。

源碼安裝

首先我們需要將Gitee代碼倉上的代碼clone下來:

$ git clone //gitee.com/helloyesterday/VMD-h5mdplugin.git
正克隆到 'VMD-h5mdplugin'...
remote: Enumerating objects: 523, done.
remote: Counting objects: 100% (523/523), done.
remote: Compressing objects: 100% (203/203), done.
remote: Total 523 (delta 323), reused 516 (delta 316), pack-reused 0
接收對象中: 100% (523/523), 1.20 MiB | 296.00 KiB/s, 完成.
處理 delta 中: 100% (323/323), 完成.

然後進入該倉庫目錄:

$ cd VMD-h5mdplugin/
$ ll
總用量 132
drwxrwxr-x  6 dechin dechin  4096 8月   4 14:37  ./
drwxrwxr-x 14 dechin dechin  4096 8月   4 14:37  ../
drwxrwxr-x  2 dechin dechin  4096 8月   4 14:37  cmake/
-rw-rw-r--  1 dechin dechin  2133 8月   4 14:37  CMakeLists.txt
-rw-rw-r--  1 dechin dechin  3190 8月   4 14:37 'Documentation VMD parameters'
drwxrwxr-x  8 dechin dechin  4096 8月   4 14:37  .git/
-rw-rw-r--  1 dechin dechin    18 8月   4 14:37  .gitignore
-rw-rw-r--  1 dechin dechin 18006 8月   4 14:37  h5mdplugin.c
-rw-rw-r--  1 dechin dechin  5001 8月   4 14:37  h5mdtest.c
-rw-rw-r--  1 dechin dechin 48343 8月   4 14:37  libh5md.c
-rw-rw-r--  1 dechin dechin  4267 8月   4 14:37  libh5md.h
-rw-rw-r--  1 dechin dechin   732 8月   4 14:37  LICENSE
-rw-rw-r--  1 dechin dechin  1582 8月   4 14:37  Makefile
-rw-rw-r--  1 dechin dechin  2624 8月   4 14:37  README.md
drwxrwxr-x  2 dechin dechin  4096 8月   4 14:37  samples/
drwxrwxr-x  2 dechin dechin  4096 8月   4 14:37  tests/

編譯構建前,我們最好先執行一下make clean,然後直接sudo make install即可:

$ make clean
rm -f h5mdplugin.so
rm -f h5mdtest
rm -f libh5md.so
rm -f *.o
rm -f *~
make -C tests clean
make[1]: 進入目錄「/home/dechin/projects/gitee/VMD-h5mdplugin/tests」
rm -f *~
rm -f libh5md_unittest
rm -f -rf samples
rm -f *.o
make[1]: 離開目錄「/home/dechin/projects/gitee/VMD-h5mdplugin/tests」
$ sudo make install
HDF5_CC=gcc h5cc -shlib -Wall -Wuninitialized -std=c99 -O3 -pedantic -fPIC -I/usr/local/lib/vmd/plugins/include -I/usr/include -I/usr/include/hdf5/serial  -c -o h5mdplugin.o h5mdplugin.c
HDF5_CC=gcc h5cc -shlib -Wall -Wuninitialized -std=c99 -O3 -pedantic -fPIC -I/usr/local/lib/vmd/plugins/include -I/usr/include -I/usr/include/hdf5/serial  -c -o libh5md.o libh5md.c
...
libh5md.c: In function 『h5md_get_all_infromation_about_property』:
libh5md.c:986:7: warning: 『dataset_id』 may be used uninitialized in this function [-Wmaybe-uninitialized]
   int current_status=H5Dread(dataset_id, wanted_memory_datatype, memspace_id, dataspace_id, H5P_DEFAULT, data_out);
       ^~~~~~~~~~~~~~
HDF5_CC=gcc h5cc -shlib -Wall -Wuninitialized -std=c99 -O3 -pedantic -fPIC -shared -Wl,--no-undefined -L/usr/lib/x86_64-linux-gnu/hdf5/serial -L. libh5md.o -o libh5md.so -lhdf5_hl -lhdf5 -lm
HDF5_CC=gcc h5cc -shlib -Wall -Wuninitialized -std=c99 -O3 -pedantic -fPIC -shared -Wl,--no-undefined -L/usr/lib/x86_64-linux-gnu/hdf5/serial -L. h5mdplugin.o -o h5mdplugin.so -lhdf5_hl -lhdf5 -Wl,-rpath,/home/dechin/projects/gitee/VMD-h5mdplugin -lh5md
cp h5mdplugin.so /usr/local/lib/vmd/plugins/LINUXAMD64/molfile/

編譯成功的話,會在當前目錄下生成一個名為h5mdplugin.so的文件,然後Makefile會自動將其拷貝到VMD的molfile目錄下,如果安裝過程中發現拷貝的路徑與自己安裝VMD的路徑不一致,可以手動修改Makefile或者是手動拷貝過去,都是可以的。

效果展示

安裝完成後,讓我們來看看效果:

感興趣的童鞋可以通過該鏈接下載文件到本地測試一下,下載解壓之後,直接用vmd xxx.h5md即可(這裡的h5md格式本質上還是hdf5,只是在名稱上稍作調整,便於區分不同的使用場景)。

總結概要

相比於明文存儲和傳統的一些數據存儲方法,HDF5格式的文件非常適合用於存儲分子動力學模擬過程中產生的龐大軌跡文件,不僅有良好的可讀性,還有非常優秀的壓縮率,使得存儲下來的軌跡文件不至於太大。而相應的,我們也需要一些配套的可視化軟件,用來展示HDF5文件中存儲的內容。本文所介紹的改進版的VMD-h5mdplugin插件,可以在VMD中直接展示HDF5的分子運動軌跡,並給出了相應的案例。

版權聲明

本文首發鏈接為://www.cnblogs.com/dechinphy/p/h5md.html

作者ID:DechinPhy

更多原著文章請參考://www.cnblogs.com/dechinphy/

打賞專用鏈接://www.cnblogs.com/dechinphy/gallery/image/379634.html

騰訊雲專欄同步://cloud.tencent.com/developer/column/91958

CSDN同步鏈接://blog.csdn.net/baidu_37157624?spm=1008.2028.3001.5343

51CTO同步鏈接://blog.51cto.com/u_15561675