.NET+PostgreSQL實踐與避坑指南

本文是本人對.NET + PostgreSQL的使用小結，希望你看完本文之後，也同我一樣覺得這個組合非常好。

簡介

.NET+PostgreSQL(簡稱PG)這個組合我已經用了蠻長的一段時間，感覺還是挺不錯的。不過大多數人說起.NET平台，還是會想起跟它“原汁原味”配套的Microsoft SQL Server(簡稱MSSQL)，其實沒有MSSQL也沒有任何問題，甚至沒有Windows Server都沒問題，誰說用.NET就一定要上微軟全家桶？這都什麼年代了……

PG和MSSQL的具體比較我就不詳細展開了，自行搜一下，這種比較分析文章很多。應該說兩個RDBMS各有特色，MSSQL工具集龐大(大多我們都用不到或不會用)，安裝較為麻煩，PG比較小巧，但功能也不弱，我們要的它都有，性能方面我做過簡單的增删查改的測試，兩者看不出什麼明顯差别，MSSQL貌似最近才提供了Linux版，而PG天生跨平台，MSSQL的授權費似乎不低(沒深究)，PG開源免費，對比較摳的客戶來說，是不太願意另外花錢買一套MSSQL的，PG就是非常不錯的選擇。

希望你看完本文之後，也同我一樣覺得.NET + PostgreSQL，Rocks！沒問題的了。

PG的版本

PG應該選擇什麼版本？Linux還是Windows？當然是首選Linux，但開發環境無所謂，你在你自己的工作電腦上安裝一個Windows版也是沒問題的，有人說兩者性能差距較大，Linux明顯要好于Windows，但我有做過測試，這個并沒有被證明如此，然而，我還是推薦Linux，一來安裝簡便，二來配置簡單(指令行界面用起來感覺比較一緻)，三來友善寫一些腳本來實作資料庫定時備份之類的。其實你并不需要擔心安裝了PG後電腦會變慢，我完全感覺不出來，它是個安靜的乖萌寵，你不叫它，它就靜靜坐在那裡，我的Windows電腦上也安裝了一個PG，我經常用它來做一些腳本測試或試驗。另外，現在也能在Windows下直接安裝Linux版本的PG了，WSL了解下？

PG有很多的版本，現在的最新版是10.4，它前面的版本是9.6.x，嗯？有點奇怪不是？10.4隻有“兩段”，而9.6.x有三段，其實之前一直是三段，9表示大版本，6表示中版本，後面是小版本，小版本隻有小的功能改進，不會對資料格式造成任何影響，就是說，你的PG從9.6.1更新到9.6.9，你直接升了把舊程式替換掉就是，保證沒有任何問題。但如果你之前的版本是9.5.3，要更新到9.6.9，那就不行了，因為中間版本變了，你需要用一個遷移工具去把你的舊的資料格式轉為新的方可，那對10.4這個版本而言，哪個是大版本，哪個是中版本，哪個是小版本？這裡我感覺有點不連貫，PG在從9更新到10的時候，似乎丢掉了“大版本”，10雖然是9的後繼，但它應該算一個中版本，是以，10.1更新到10.4是不用轉換資料的，直接更新程式即可。那PG的下一個中版本是什麼？沒錯，是11，再下一個應該就是12了。軟體這個東西，如果你沒什麼曆史包袱，我覺得直接選擇最新的，比如選擇10.4，将來更新10.5,10.6的時候也簡單。

說點額外的，PG10是去年(2017)正式推出的，距離現在都不到一年，剛出來的時候我就想，這個“重大更新”(想想看iPhone X，Mac OS X，10這個數字是很特别不是？)能不能帶來性能上的大提升呢？我試了一下，結論是：沒有。确實它的更新文檔上也沒提及到性能有什麼明顯提升，它主要增加了對表分區的原生支援，表分區，就是你的表中的資料的數量很多很多的時候，通過表分區來提高讀寫速度，至于表要多大才推薦分區呢？PG的官方文檔說是：如果表的尺寸趕上了你主機的記憶體的時候，可以考慮表分區……是以，對于那些隻有區區幾千萬行或幾百萬行資料的表，你确定要分區嗎？

Npgsql

要用.NET使用PG，就得用nuget引入Npgsql這個包，這是它的官方網站：http://www.npgsql.org/，完全開源，它其實就是針對PG資料庫的ADO.NET引擎(ADO.NET Data Provider)。這裡是它的幫助手冊：http://www.npgsql.org/doc/index.html

這裡邊并沒有太多難點，你所需要做的，就是安裝好你的PG資料庫(Windows版/Linux版都行，沒有什麼影響)，然後建立一個.NET項目(我推薦使用.NET Core)，引入Npgsql，然後照着說明手冊上的簡單例子入一下門即可。

本文當然不會具體帶你如何開始使用SELECT語句，下面主要講述在使用過程中，我們所克服的一些困難或踩過的坑。

NVARCHAR呢？

MSSQL中用得最多的的文本類型是NVARCHAR，這是一個帶長度限制的文本類型，對應地，PG中有VARCHAR，這樣用沒問題，但PG中的文本類型其實跟MSSQL中的文本類型是有點差別的，PG的文本基本上可以認為不限長度，VARCHAR及TEXT對PG内部來說，并沒有什麼差别，隻是在寫入的時候，VARCHAR會檢查一下長度，是以性能上來看，VARCHAR并不比TEXT要快，較真的話可能還會慢點，因為它要檢查長度嘛，是以你在設計資料庫的時候可以無腦地将所有文本類型設定為TEXT(或後面提到的CITEXT)，長度檢查工作放在業務系統中去做即可。

想要大小寫不敏感怎麼辦？

絕大多數時候，我們都是希望大小寫不敏感的，大小寫敏感反倒會帶來很多困惑，查詢不出，或者系統中存在同名的使用者，一個叫John另一個叫john，MSSQL可以在建立庫的時候指定大小寫不敏感，而PG似乎沒有這樣的功能，它需要借助一個額外的元件，叫CITEXT，CI的意思就是Case Insensitive。要使用CITEXT元件，你需要安裝postgresql10-contrib包(假設你安裝的是PG10，如果不是的話你去找對應的包)，再使用以下指令建立CITEXT類型：

CREATE EXTENSION IF NOT EXISTS CITEXT WITH SCHEMA public;

注：一個database隻需要執行一次這個指令即可

如果你使用的是psql用戶端連上去使用PG的話，這時候已經OK了，你會發現CITEXT的字段已經是大小寫不敏感了，但如果你用的是Npgsql用代碼去通路PG的話，CITEXT似乎沒生效，其實原因是這樣的，CITEXT并不是PG的原生類型，你在用查詢語句的時候，需要在參數後面加上“::CITEXT”顯式地告訴PG，你的參數是CITEXT類型，例子如下：

SELECT * FROM test_table WHERE test_name=@TextName::CITEXT AND category=@Category::CITEXT

嗯，我承認是有點麻煩，但習慣就好，我現在還不知道有什麼更佳方法。

使用CITEXT時候出現NotSupportedException

這個異常的呈現内容大緻如此：

System.NotSupportedException: The field 'application_id' has a type currently unknown to Npgsql (OID 41000). You can retrieve it as a string by marking it as unknown, please see the FAQ.
在 Npgsql.NpgsqlDataReader.GetValue(Int32 ordinal)
在 Npgsql.NpgsqlDataReader.get_Item(Int32 ordinal)
……

這個錯誤對我們而言，曾經像個幽靈似的，時不時出現，出現的時候重新開機一下服務程式就好了，不再出現，然後過幾個星期或者幾個月又出現，有時候一天出現多次也不是沒有可能。最後是到github上面求助才最終搞懂了原因。連結：https://github.com/npgsql/npgsql/issues/1635

簡單地說，PG對各種資料類型，是有一個内部的ID值的(叫oid)，Npgsql在第一次連接配接資料庫的時候，會擷取到這些oid值并緩存起來，對于PG的内部類型，如INT什麼的，這些oid值是固定的，但對于CITEXT似乎不是這樣，因為CITEXT這個類型是我門自己用CREATE EXTENSION指令建立的(請參考本文前面内容)，建立的時候确定其oid。我們在還原資料庫的時候，也相當于重新建立了CITEXT類型，這樣會導緻CITEXT的oid發生變化，但Npgsql并不知道，是以就出現了這個異常。我們在開發過程中常常需要做還原資料庫的動作，是以導緻了這個問題的發生。

解決方法1，當資料庫還原了之後，調用NpgsqlConnection.ReloadTypes()，重新整理各類型oid，但這個很難，因為還原資料庫都是手動操作，做完之後打開網頁，在上面點一下通知程式嗎？

解決方法2，重新開機一下程式。這個其實跟解決方法1差不多，隻不過不需要寫什麼額外代碼，考慮到還原資料庫這個動作其實也不是太頻繁，隻是在開發環境中做，是以重新開機就重新開機吧，我們現在就幹，規定還原資料庫後自己重新開機下服務程式。(寫個腳本幹這個事情很簡單)

使用事務進行大量操作時候導緻程式崩潰

這個問題我同樣到github上求助了，連結：https://github.com/npgsql/npgsql/issues/1838

這個問題比前面的問題可能更嚴重，因為我很可能捕捉不到異常(就是說有時候可以捕捉到，有時候不行)，程式直接崩潰了，對于一個.NET程式來說，這是很不應該的事情，即便我沒單獨寫try-catch，程式的最外層異常處理器應該也能捕捉到相關的Exception并log對不？但偏不，沒有log，也捕捉不到。是以至今我懷疑這是一個.NET的bug，可能跟Npgsql并沒有關系。

問題的原因如github上所描述，是找到了，但卻無法從根本上修正，這個問題其實是個簡單的“事務逾時”問題。

我們的程式在第一次啟動的時候會初始化資料庫的表，插入大量的初始化資料，由于我們公司的開發環境比較特殊，資料庫延遲十分高，是以導緻插入速度很慢，每條插入耗時可高達幾十毫秒，(生産環境并沒有這個問題)這樣一萬多條資料下來就導緻了事務逾時(事務逾時預設時間是1分鐘)。解決方法當然很明顯了：初始化的時候，臨時增加 TransactionScope的逾時值，增加到10分鐘，這樣總歸沒問題了。

類似這種問題我們隻能通過一些外部的workaround來預防，很難從根本上解決。

55000: 禁用已準備好的事務

這又是一個有點棘手的事情，首先是這個中文翻譯得很不好，這是一條資料庫抛出來的出錯資訊，它的英文是“Prepared transactions are disabled”，其正确的中文翻譯我覺得應該是：預處理事務已被禁用。唉，是以我說為什麼要英文版，如果提示中文，想在網上找答案都會多些障礙。

對事務的使用，這裡有個簡單的例子：

using (NpgsqlConnection conn = new NpgsqlConnection(connectionStr)) {
        conn.Open();
        using (TransactionScope ts = new TransactionScope()) {
            conn.EnlistTransaction(Transaction.Current);
                //SQLs...
            }
            ts.Complete();
        }
    }

什麼叫“預處理事務”？其實很簡單，就是“事務包事務”，就是可以分步送出的事務，比如我先開啟了一個事務A，在這個事務中我又開啟了一個事務B，B送出，A再送出。PG對于預處理事務是預設關閉的，當然了，你可以打開它，編輯配置檔案postgresql.conf，把max_prepared_transactions改為100(預設是0，0表示禁用)，重新開機PG服務即可。

但你确定你真的用得到預處理事務嗎？我看下來我們是用不到的，但為什麼出現這個問題？——還是我們程式寫得有問題，即便你從單個方法上看不出來事務包事務。以下兩種場景可能會出現“預處理事務”：

1，我建立了一個方法A通路資料庫，這個方法可能會被其它方法調用，是以它有個DbConnection類型的參數，表示調用者負責打開資料庫連接配接傳遞過來，而A裡面開啟了事務，而調用者并不知情，也開啟了事務，形成預處理事務

2，這種情況更隐晦些，資料庫連接配接字元串，如：Host=192.168.1.101; Username=postgres; Password=123456; Database=testdb; Enlist=true，在後面有個叫Enlist的參數為true，這表示這個連接配接在打開的時候，會自動Enlist到目前執行上下文的Transaction中去，如果目前執行上下文中打開了事務(從代碼上看包含在了using(TransactionScope)中)，那這個資料庫連接配接就自動Enlist上去了，再考慮這樣的場景：A方法會自己打開資料庫連接配接去查詢點什麼東西，B方法也會通路資料庫，且B方法會使用事務，事務中調用了A方法，A方法打開資料庫連接配接的時候發現目前執行上下文中存在Transaction，于是自動Enlist上去了，不經意間形成了預處理事務，且還是“分布式”的(A和B打開的可能是不同的資料庫連接配接)，這種情況應該并不是你所需要的

那我們應該怎麼做？下面是我的做法：

1，max_prepared_transactions還是設定為0，關掉，因為我們真用不到，如果用得到，那就是我們代碼寫錯了，是以一旦出現“禁用已準備好的事務”這個異常，就回去檢查代碼

2，把Enlist=true在資料庫連接配接字元串中去掉，這麼一來，每次使用事務都需要顯式地調用 conn.EnlistTransaction(Transaction.Current)，雖然對了一行代碼，但語義更明确，也不用考慮到底是TransactionScope包DbConnection或反過來DbConnection包TransactionScope

3，規範化我們的資料庫通路代碼，明确哪些是需要事務哪些是不需要的，在各個方法的注釋上注明

40001：由于多個事務間的讀/寫依賴而無法串行通路

它對應的英文是：Cound not serialize access due to read/write dependencies among transactions，這個應該怎麼了解呢？其實了解資料庫事務隔離級别的人對這個應該不會陌生。.NET的TransactionScope預設使用的是事務隔離級别中的最進階别——Serializable(可序列化)。這個級别最大程度上確定了資料的一緻性，但代價也挺高，一來速度較慢，二來很容易出現“事務間讀/寫依賴”，就是這個錯誤了，舉個簡單的例子：

A、B兩個事務，同時通路test表中id為50的一條記錄，A讀出這條記錄，接着B更新了這條記錄并送出，根據可序列化的隔離級别的規則，A并不知道B更新了記錄，A在B送出後嘗試修改這條記錄，這時候資料庫就會讓A事務失敗，并抛出這個異常，因為讓A修改成功的話，就會導緻B之前的修改不經意間丢失了，可序列化隔離級别并不允許這種情況的發生。

是以，這是個“正常的錯誤”，按正常的業務邏輯來說，應該很少會出現，如果真的出現，且頻繁出現，那需要考慮下是不是業務邏輯設計得不太合理，看看能不能從設計上避免這個問題，如果業務邏輯一定如此，那可以用下面的方法嘗試一下：

1，将這種并行事務用用戶端代碼排個隊，弄個線程安全隊列，逐個執行，這樣速度會慢點，但確定了每個事務都能成功

2，捕捉這個異常，然後自動重試，其實這也是資料庫推薦的正統的做法

3，降低事務隔離級别，這個可能會出現問題，也可能不出現，這完全取決于你的業務，關于事務隔離級别，這是個蠻大的話題，我考慮适當時候再寫一篇文章

4，對于極少出現的頻次來說，可以不處理，僅僅需要捕捉這個異常類型，然後提示使用者重試即可，很多網站貌似都這麼幹的

總結

有時間的話我會另外開一篇文章來寫寫PG的一些正常用法，如熱備冷備還原維護等，但不太能保證什麼時候能寫出來。

暫時先總結那麼多，誰如果有這方面的問題的話，歡迎留言。

.NET+PostgreSQL實踐與避坑指南

簡介

PG的版本

Npgsql

NVARCHAR呢？

想要大小寫不敏感怎麼辦？

使用CITEXT時候出現NotSupportedException

使用事務進行大量操作時候導緻程式崩潰

55000: 禁用已準備好的事務

40001：由于多個事務間的讀/寫依賴而無法串行通路

總結

繼續閱讀

postgis學習筆記

postgis 常用 sql 20210707

postgres 性能優化小技巧Performance Tips1) Using EXPLAIN2) Statistics Used by the Planner3) Controlling the Planner with Explicit JOIN Clauses4) Populating a Database5) Non-Durable Settings

使用eclipse 搭建 spring boot + mybatis 連接配接 postgresql資料庫

oracle sql 多表嵌套子查詢連接配接查詢， join where exist in 的差別

C#連接配接postgresql資料庫

遇到的問題之dotnet騰訊COS生成臨時憑證

關于 java 轉碼 GBK -> UTF-8

postgresql替換換行符

查詢資料庫中存在的回車換行符

Django入門：第一個Django應用

postgresql 關于GBK和utf-8字元集問題

Serialization

教你如何使用Visual C#來建立Windows服務程式

PostgreSQL t_bits計算方法

為什麼要選擇UniDAC