資料庫性能優化之SQL語句優化（上）

一、問題的提出

在應用系統開發初期，由于開發資料庫資料比較少，對于查詢SQL語句，複雜視圖的編寫等體會不出SQL語句各種寫法的性能優劣，但是如果将應用系統送出實際應用後，随着資料庫中資料的增加，系統的響應速度就成為目前系統需要解決的最主要的問題之一。

系統優化中一個很重要的方面就是SQL語句的優化。對于海量資料，劣質SQL語句和優質SQL語句之間的速度差别可以達到上百倍，可見對于一個系統不是簡單地能實作其功能就可，而是要寫出高品質的SQL語句，提高系統的可用性。

在多數情況下，Oracle使用索引來更快地周遊表，優化器主要根據定義的索引來提高性能。但是，如果在SQL語句的where子句中寫的SQL代碼不合理，就會造成優化器删去索引而使用全表掃描，一般就這種SQL語句就是所謂的劣質SQL語句。在編寫SQL語句時我們應清楚優化器根據何種原則來删除索引，這有助于寫出高性能的SQL語句。

二、SQL語句編寫注意問題

下面就某些SQL語句的where子句編寫中需要注意的問題作詳細介紹。在這些where子句中，即使某些列存在索引，但是由于編寫了劣質的SQL，系統在運作該SQL語句時也不能使用該索引，而同樣使用全表掃描，這就造成了響應速度的極大降低。

1. 操作符優化

(a) IN 操作符

用IN寫出來的SQL的優點是比較容易寫及清晰易懂，這比較适合現代軟體開發的風格。但是用IN的SQL性能總是比較低的，從Oracle執行的步驟來分析用IN的SQL與不用IN的SQL有以下差別：

ORACLE試圖将其轉換成多個表的連接配接，如果轉換不成功則先執行IN裡面的子查詢，再查詢外層的表記錄，如果轉換成功則直接采用多個表的連接配接方式查詢。由此可見用IN的SQL至少多了一個轉換的過程。一般的SQL都可以轉換成功，但對于含有分組統計等方面的SQL就不能轉換了。

推薦方案：在業務密集的SQL當中盡量不采用IN操作符，用EXISTS 方案代替。

(b) NOT IN操作符

此操作是強列不推薦使用的，因為它不能應用表的索引。

推薦方案：用NOT EXISTS 方案代替

判斷字段是否為空一般是不會應用索引的，因為索引是不索引空值的。不能用null作索引，任何包含null值的列都将不會被包含在索引中。即使索引有多列這樣的情況下，隻要這些列中有一列含有null，該列就會從索引中排除。

也就是說如果某列存在空值，即使對該列建索引也不會提高性能。任何在where子句中使用is null或is not null的語句優化器是不允許使用索引的。

推薦方案：用其它相同功能的操作運算代替，如：a is not null 改為 a>0 或a>’’等。不允許字段為空，而用一個預設值代替空值，如申請中狀态字段不允許為空，預設為申請。

(d) > 及 < 操作符（大于或小于操作符）

大于或小于操作符一般情況下是不用調整的，因為它有索引就會采用索引查找，但有的情況下可以對它進行優化，如一個表有100萬記錄，一個數值型字段A，30萬記錄的A=0，30萬記錄的A=1，39萬記錄的A=2，1萬記錄的A=3。那麼執行A>2與A>=3的效果就有很大的差別了，因為A>2時ORACLE會先找出為2的記錄索引再進行比較，而A>=3時ORACLE則直接找到=3的記錄索引。

(e) LIKE操作符

LIKE操作符可以應用通配符查詢，裡面的通配符組合可能達到幾乎是任意的查詢，但是如果用得不好則會産生性能上的問題，如LIKE ‘%5400%’ 這種查詢不會引用索引，而LIKE ‘X5400%’則會引用範圍索引。

一個實際例子：用YW_YHJBQK表中營業編号後面的戶辨別号可來查詢營業編号 YY_BH LIKE ‘%5400%’ 這個條件會産生全表掃描，如果改成YY_BH LIKE ’X5400%’ OR YY_BH LIKE ’B5400%’ 則會利用YY_BH的索引進行兩個範圍的查詢，性能肯定大大提高。

帶通配符(%)的like語句：

同樣以上面的例子來看這種情況。目前的需求是這樣的，要求在職工表中查詢名字中包含cliton的人。可以采用如下的查詢SQL語句：

select * from employee where last_name like \'%cliton%\';

這裡由于通配符(%)在搜尋詞首出現，是以Oracle系統不使用last_name的索引。在很多情況下可能無法避免這種情況，但是一定要心中有底，通配符如此使用會降低查詢速度。然而當通配符出現在字元串其他位置時，優化器就能利用索引。在下面的查詢中索引得到了使用：

select * from employee where last_name like \'c%\';

(f) UNION操作符

UNION在進行表連結後會篩選掉重複的記錄，是以在表連結後會對所産生的結果集進行排序運算，删除重複的記錄再傳回結果。實際大部分應用中是不會産生重複的記錄，最常見的是過程表與曆史表UNION。如：

select * from gc_dfys 
union 
select * from ls_jg_dfys

這個SQL在運作時先取出兩個表的結果，再用排序空間進行排序删除重複的記錄，最後傳回結果集，如果表資料量大的話可能會導緻用磁盤進行排序。

推薦方案：采用UNION ALL操作符替代UNION，因為UNION ALL操作隻是簡單的将兩個結果合并後就傳回。

select * from gc_dfys 
union all 
select * from ls_jg_dfys

(g) 聯接列

對于有聯接的列，即使最後的聯接值為一個靜态值，優化器是不會使用索引的。我們一起來看一個例子，假定有一個職工表(employee)，對于一個職工的姓和名分成兩列存放(FIRST_NAME和LAST_NAME)，現在要查詢一個叫比爾.克林頓(Bill Cliton)的職工。

下面是一個采用聯接查詢的SQL語句：

select * from employss where first_name||\'\'||last_name =\'Beill Cliton\';

上面這條語句完全可以查詢出是否有Bill Cliton這個員工，但是這裡需要注意，系統優化器對基于last_name建立的索引沒有使用。當采用下面這種SQL語句的編寫，Oracle系統就可以采用基于last_name建立的索引。

where first_name =\'Beill\' and last_name =\'Cliton\';

(h) Order by語句

ORDER BY語句決定了Oracle如何将傳回的查詢結果排序。Order by語句對要排序的列沒有什麼特别的限制，也可以将函數加入列中(象聯接或者附加等)。任何在Order by語句的非索引項或者有計算表達式都将降低查詢速度。

仔細檢查order by語句以找出非索引項或者表達式，它們會降低性能。解決這個問題的辦法就是重寫order by語句以使用索引，也可以為所使用的列建立另外一個索引，同時應絕對避免在order by子句中使用表達式。

(i) NOT

我們在查詢時經常在where子句使用一些邏輯表達式，如大于、小于、等于以及不等于等等，也可以使用and(與)、or(或)以及not(非)。NOT可用來對任何邏輯運算符号取反。下面是一個NOT子句的例子:

where not (status =\'VALID\')

如果要使用NOT，則應在取反的短語前面加上括号，并在短語前面加上NOT運算符。NOT運算符包含在另外一個邏輯運算符中，這就是不等于(<>)運算符。換句話說，即使不在查詢where子句中顯式地加入NOT詞，NOT仍在運算符中，見下例：

where status <>\'INVALID\';

對這個查詢，可以改寫為不使用NOT：

select * from employee where salary<3000 or salary>3000;

雖然這兩種查詢的結果一樣，但是第二種查詢方案會比第一種查詢方案更快些。第二種查詢允許Oracle對salary列使用索引，而第一種查詢則不能使用索引。

2. SQL書寫的影響

(a) 同一功能同一性能不同寫法SQL的影響。

如一個SQL在A程式員寫的為 Select * from zl_yhjbqk

B程式員寫的為 Select * from dlyx.zl_yhjbqk（帶表所有者的字首）

C程式員寫的為 Select * from DLYX.ZLYHJBQK（大寫表名）

D程式員寫的為 Select * from DLYX.ZLYHJBQK（中間多了空格）

以上四個SQL在ORACLE分析整理之後産生的結果及執行的時間是一樣的，但是從ORACLE共享記憶體SGA的原理，可以得出ORACLE對每個SQL 都會對其進行一次分析，并且占用共享記憶體。

如果将SQL的字元串及格式寫得完全相同，則ORACLE隻會分析一次，共享記憶體也隻會留下一次的分析結果，這不僅可以減少分析SQL的時間，而且可以減少共享記憶體重複的資訊，ORACLE也可以準确統計SQL的執行頻率。

(b) WHERE後面的條件順序影響

WHERE子句後面的條件順序對大資料量表的查詢會産生直接的影響。如：

Select * from zl_yhjbqk where dy_dj = \'1KV以下\' and xh_bz=1 
Select * from zl_yhjbqk where xh_bz=1 and dy_dj = \'1KV以下\'

以上兩個SQL中dy_dj（電壓等級）及xh_bz（銷戶标志）兩個字段都沒進行索引，是以執行的時候都是全表掃描，第一條SQL的dy_dj = ’1KV以下’條件在記錄集内比率為99%，而xh_bz=1的比率隻為0.5%，在進行第一條SQL的時候99%條記錄都進行dy_dj及xh_bz的比較，而在進行第二條SQL的時候0.5%條記錄都進行dy_dj及xh_bz的比較，以此可以得出第二條SQL的CPU占用率明顯比第一條低。

在FROM後面的表中的清單順序會對SQL執行性能影響，在沒有索引及ORACLE沒有對表進行統計分析的情況下，ORACLE會按表出現的順序進行連結，由此可見表的順序不對時會産生十分耗服物器資源的資料交叉。（注：如果對表進行了統計分析，ORACLE會自動先進小表的連結，再進行大表的連結）

3. SQL語句索引的利用

(a) 對條件字段的一些優化

采用函數處理的字段不能利用索引，如：

substr(hbs_bh,1,4)=’5400’
優化處理：hbs_bh like ‘5400%’
trunc(sk_rq)=trunc(sysdate)
優化處理：sk_rq>=trunc(sysdate) and sk_rq

進行了顯式或隐式的運算的字段不能進行索引，如：

ss_df+20>50
優化處理：ss_df>30
‘X’ || hbs_bh>’X5400021452’
優化處理：hbs_bh>’5400021542’
sk_rq+5=sysdate
優化處理：sk_rq=sysdate-5
hbs_bh=5401002554
優化處理：hbs_bh=’ 5401002554’

注：此條件對hbs_bh 進行隐式的to_number轉換，因為hbs_bh字段是字元型。

條件内包括了多個本表的字段運算時不能進行索引，如：

hbs_bh=5401002554
優化處理：hbs_bh=’ 5401002554’

注：此條件對hbs_bh 進行隐式的to_number轉換，因為hbs_bh字段是字元型。

條件内包括了多個本表的字段運算時不能進行索引，如：

ys_df>cx_df
無法進行優化 
qc_bh || kh_bh=’5400250000’
優化處理：qc_bh=’5400’ and kh_bh=’250000’