MongoDB - 入門指南 - ⎝⎛CodingNote.cc ⎞⎠

MongoDB – 入門指南

2022 年 11 月 14 日
筆記
mongodb, NoSQL, 資料庫技術

組件結構

核心進程

在 MongoDB 中，核心進程主要包含了 mongod、mongos 和 mongosh 三個。

其中最主要的是 mongod 程式，其在不同的部署方案中（單機部署、副本集部署、分片集群部署），通過不同的配置，可以扮演多種不同的角色：

在單機部署中作為資料庫伺服器（提供所有讀寫功能）
在副本集部署中，通過配置，可以部署為 Primary 節點（負責寫數據，也可以提供查詢）、Secondary 節點（從主節點複製數據，也可以提供查詢）、以及 Arbiter 節點（不保存數據，主要用於參與選舉投票）
在分片集群中，除了在每個分片中扮演上述角色外，還扮演著配置伺服器的角色（存儲有分片集群的所有元數據資訊，mongos 的數據路由分發等都要依賴於它）

在一台伺服器上，可以啟動多個 mongod 服務。但在實際生產部署中，通常是建議一台伺服器部署一個 mongod 實例，這樣不僅減少資源競爭，而且伺服器故障也不會同時影響到多個服務。

mongos 在分片集群中扮演路由的角色，提供客戶端和分片之間的介面。

mongosh 是 MongoDB 集成的互動式 shell 工具。

資料庫工具

MongoDB 資料庫工具是用於處理 MongoDB 部署的命令行實用程式的集合。資料庫工具包括以下二進位文件：

二進位導入導出
- mongodump: 導出 mongod 資料庫的二進位數據
- mongorestore: 恢復 mongodump 導出文件的數據到 mongod 或 mongos 資料庫
- bsondump: 轉換 BSON 導出文件成 JSON 格式
數據導入導出
- mongoimport: 從外部 JSON、CSV 或 TSV 文件中載入數據
- mongoexport: 從 mongod 實例中導出數據到 JSON 或 CSV 文件中
診斷工具
- mongostat: 快速診斷當前運行的 mongod 或 mongos 實例的狀態
- mongotop: 統計 mongod 實例讀取和寫入數據的時間
GridFS 工具
- mongofiles: 支援在 GridFS 對象中操作 MongoDB 實例中存儲的文件

數據邏輯結構

MongoDB 數據邏輯結構分為資料庫 database、集合 collection、文檔 document 三層 :

一個 mongod 實例中允許創建多個資料庫
一個資料庫中允許創建多個集合，集合相當於關係型資料庫的表
一個集合則是由若干個文檔構成，文檔相當於關係型資料庫的行，是 MongoDB 中數據的基本單元

資料庫

一個資料庫中可以創建多個集合，原則上應把邏輯相近的集合都放在一個資料庫中。

在 MongoDB 中，會有以下幾個內建的資料庫：

admin: 存放有資料庫帳號相關資訊，在身份驗證和授權時使用
local: 特定於單個伺服器的數據會存儲在此資料庫中。在副本集中，local 資料庫用於存儲複製過程中所使用的數據，而其本身不會被複制。
config: 用於分片集群環境，存放了分片相關的元數據資訊
test: 默認創建的測試庫，連接 mongod 服務時，如果不指定連接的具體資料庫，默認就會連接到 test 資料庫

集合

和 SQL 的表不同，集合是動態模式，不需要在讀寫數據前創建模式就可以使用，集合中的文檔也可以擁有不同的欄位，隨時可以任意增減某個文檔的欄位。

默認情況下，集合不要求其文檔具有相同的模式，但這是一種很好的實踐。可以通過使用 MongoDB 的文檔驗證功能和可用於多種程式語言的對象–文檔映射（object-document mapping）庫來實現文檔驗證。

集合由其名稱進行標識，集合名稱可以是任意 UTF-8 字元串，但有以下限制：

不能是空字元串（""）。
不能含有 \0（空字元），這個字元用於表示集合名稱的結束
不能以 system. 開頭，該前綴為內部集合保留

集合名稱使用 . 字元可以創建子集合，用與區分不同組織集合。雖然子集合沒有任何特殊屬性，但它們很有用，許多 MongoDB 工具整合了子集合。

文檔

文檔是 MongoDB 中數據的基本存儲單元，以一種叫作 BSON 的文檔結構表示。

文檔中的鍵值對是有序的，不同序則是不同文檔。並且鍵是區分大小寫的，否則也為不同文檔。

文檔的鍵是字元串，而值除了字元串，還可以是 Int、Long、Double、Boolean、數組、嵌入文檔等多種類型。

每個文檔都有一個默認的 _id 鍵，它相當於關係型資料庫中的主鍵，這個鍵的值在同一個集合中必須是唯一的。

_id 鍵的值默認是 ObjectId 類型，在插入文檔的時候，如果用戶不設置文檔的 _id 值的話，MongoDB 會自動生成一個唯一的 ObjectId 值進行填充。

資料庫文件

MongoDB 在 3.2 版本已經將 WiredTiger 作為默認的存儲引擎。其作為存儲引擎的時候，資料庫會有以下存儲文件：

collection-*.wt: 存儲集合的數據
index-*.wt: 存儲索引的數據
WiredTiger: 存儲基本配置資訊
WiredTiger.wt: 存儲所有其他集合的元數據資訊
WiredTiger.lock: 存儲進程 ID，用於防止多個進程連接同一個 WiredTiger 資料庫
WiredTiger.turtle: 存儲 WiredTiger.wt 的元數據資訊
journal: 存儲資料庫的寫日誌

命令行工具

MongoDB 提供的 mongosh 是一個 JavaScript 的 shell，其提供了許多高級功能和自定義功能。

使用技巧

對於 MongoDB 提供的功能，shell 內置了幫助文檔，可以輸入 help 命令進行訪問，使用 db.help() 可以查看資料庫級別的幫助文檔，使用 db.foo.help() 可以查看集合級別的幫助文檔。

在 shell 中使用函數之前，在不使用括弧的情況下輸入函數名，這樣會列印出函數的源程式碼，這是一個可以查看函數具體行為的好方法。

執行腳本

shell 不止可以直接執行 JavaScript 的腳本程式碼，還可以用於執行 JavaScript 的腳本文件，簡單執行 mongo script.js 即可。

如果已經進入到 shell 中，可以使用 load() 函數載入 JavaScript 腳本文件。

創建 .mongorc.js 文件

對於需要頻繁被載入的腳本，可以將它們添加到 .mongorc.js 中，此文件會在啟動 shell 時自動運行。

在更實際一些的場景中，使用此腳本可以設置全局變數，或者為長名稱設置一個簡短的別名，也可以重寫內置函數。

訂製提示資訊

通過將 prompt 變數設置為一個字元串或函數，可以重寫默認的 shell 提示，如下示例：

prompt = function() {
    if (typeof db == 'undefined') {
        return '(nodb)> ';
    }

    // 檢查最後的資料庫操作
    try {
        db.runCommand({getLastError: 1});
    } catch (e) {
        print(e);
    }

    return db+"> ";
};

提示函數應該返回一個字元串，通常應該包含對 getLastError 的調用，這樣可以捕獲輸入時的錯誤，並在 shell 斷開連接時自動重新連接。

編輯複雜變數

使用 shell 時，編輯多行的時候不能再編輯前面的行，這對於較大的程式碼塊或對象非常不友好。

為此，可以在 shell 中設置 EDITOR 變數，則可以使用 edit varname 的方式編輯一個變數，完成更改後只需保存並退出編輯器，變數將被重新解析並載入回 shell 中。

不便使用的集合名稱

大多數情況下可以使用 db.collectionName 語法來獲得一個集合的內容，但如果集合名稱是保留字或是無效的 JavaScript 屬性名稱時，那麼此方法就不能正常工作了。

對於上述的情況，可以使用 db.getCollection() 的方式繞過無效屬性。

Tags: mongodb NoSQL 資料庫技術