STL之二分查找 (Binary search in STL)

Section I

正确區分不同的查找算法count,find,binary_search,lower_bound,upper_bound,equal_range

本文是對Effective STL第45條的一個總結，闡述了各種查找算法的異同以及使用他們的時機。

首先可供查找的算法大緻有count,find,binary_search,lower_bound,upper_bound,equal_range。帶有判别式的如count_if,find_if或者binary_search的派别式版本，其用法大緻相同，不影響選擇，是以不作考慮。

注意這些查找算法需要序列式容器，或者數組。關聯容器有相應的同名成員函數except binary_search。

首先,選擇查找算法時，區間是否排序是一個至關重要的因素。

可以按是否需要排序區間分為兩組:

A. count,find

B. binary_search,lower_bound,upper_bound,equal_range

A組不需排序區間， B組需要排序區間。

當一個區間被排序，優先選擇B組，因為他們提供對數時間的效率。而A則是線性時間。

另外A組B組所依賴的查找判斷法則不同，A使用相等性法則(查找對象需要定義operator==), B使用等價性法則(查找對象需要定義operator<,必須在相等時傳回false)。

A組的差別

count:計算對象區間中的數目。

find:傳回第一個對象的位置。

查找成功的話，find會立即傳回，count不會立即傳回（直到查找完整個區間），此時find效率較高。

是以除非是要計算對象的數目，否則不考慮count。

B組的差別 {1，3，4，5，6}

binary_search：判斷是否存在某個對象

lower_bound: 傳回>=對象的第一個位置，lower_bound(2)=3, lower_bound(3)=3

目标對象存在即為目标對象的位置,不存在則為後一個位置.

upper_bound: 傳回>對象的第一個位置, upper_bound(2)=3,upper_bound(3)=4

無論是否存在都為後一個位置.

equal_bound: 傳回由lower_bound和upper_bound傳回值構成的pair,也就是所有等價元素區間。

equal_bound有兩個需要注意的地方:

1. 如果傳回的兩個疊代器相同，說明查找區間為空，沒有這樣的值

2. 傳回疊代器間的距離與疊代器中對象數目是相等的，對于排序區間，他完成了count和find的雙重任務

Section II binary search in STL

如果在C++ STL容器中包含了有序的序列，STL提供了四個函數進行搜尋，他們是利用二分查找實作的(Binary search).

其中：

假定相同值的元素可能有多個

lower_bound 傳回第一個符合條件的元素位置

upper_bound 傳回最後一個符合條件的元素位置

equal_range 傳回所有等于指定值的頭/尾元素的位置，其實就是lower_bound和upper_bound

binary_search 傳回是否有需要查找的元素。

Section II Effect STL #45

條款45：注意count、find、binary_search、lower_bound、upper_bound和equal_range的差別

你要尋找什麼，而且你有一個容器或者你有一個由疊代器劃分出來的區間——你要找的東西就在裡面。你要怎麼完成搜尋呢？你箭袋中的箭有這些：count、count_if、find、find_if、binary_search、lower_bound、upper_bound和equal_range。面對着它們，你要怎麼做出選擇？

簡單。你尋找的是能又快又簡單的東西。越快越簡單的越好。

暫時，我假設你有一對指定了搜尋區間的疊代器。然後，我會考慮到你有的是一個容器而不是一個區間的情況。

要選擇搜尋政策，必須依賴于你的疊代器是否定義了一個有序區間。如果是，你就可以通過binary_search、lower_bound、upper_bound和equal_range來加速（通常是對數時間——參見條款34）搜尋。如果疊代器并沒有劃分一個有序區間，你就隻能用線性時間的算法count、count_if、find和find_if。在下文中，我會忽略掉count和find是否有_if的不同，就像我會忽略掉binary_search、lower_bound、upper_bound和equal_range是否帶有判斷式的不同。你是依賴預設的搜尋謂詞還是指定一個自己的，對選擇搜尋算法的考慮是一樣的。

如果你有一個無序區間，你的選擇是count或着find。它們分别可以回答略微不同的問題，是以值得仔細去區分它們。count回答的問題是：“是否存在這個值，如果有，那麼存在幾份拷貝？”而find回答的問題是：“是否存在，如果有，那麼它在哪兒？”

假設你想知道的東西是，是否有一個特定的Widget值w在list中。如果用count，代碼看起來像這樣：

list<Widget> lw; // Widget的list

Widget w; // 特定的Widget值

...

if (count(lw.begin(), lw.end(), w)) {

... // w在lw中

} else {

... // 不在

}

這裡示範了一種慣用法：把count用來作為是否存在的檢查。count傳回零或者一個正數，是以我們把非零轉化為true而把零轉化為false。如果這樣能使我們要做的更加顯而易見：

if (count(lw.begin(), lw.end(), w) != 0) ...

而且有些程式員這樣寫，但是使用隐式轉換則更常見，就像最初的例子。

和最初的代碼比較，使用find略微更難懂些，因為你必須檢查find的傳回值和list的end疊代器是否相等：

if (find(lw.begin(), lw.end(), w) != lw.end()) {

... // 找到了

} else {

... // 沒找到

如果是為了檢查是否存在，count這個慣用法編碼起來比較簡單。但是，當搜尋成功時，它的效率比較低，因為當找到比對的值後find就停止了，而count必須繼續搜尋，直到區間的結尾以尋找其他比對的值。對大多數程式員來說，find在效率上的優勢足以證明略微增加複雜度是合适的。

通常，隻知道區間内是否有某個值是不夠的。取而代之的是，你想獲得區間中的第一個等于該值的對象。比如，你可能想列印出這個對象，你可能想在它前面插入什麼，或者你可能想要删除它（但當疊代時删除的引導參見條款9）。當你需要知道的不止是某個值是否存在，而且要知道哪個對象（或哪些對象）擁有該值，你就得用find：

list<Widget>::iterator i = find(lw.begin(), lw.end(), w);

if (i != lw.end()) {

... // 找到了，i指向第一個

... // 沒有找到

對于有序區間，你有其他的選擇，而且你應該明确的使用它們。count和find是線性時間的，但有序區間的搜尋算法（binary_search、lower_bound、upper_bound和equal_range）是對數時間的。

從無序區間遷移到有序區間導緻了另一個遷移：從使用相等來判斷兩個值是否相同到使用等價來判斷。條款19由一個詳細地講述了相等和等價的差別，是以我在這裡不會重複。取而代之的是，我會簡單地說明count和find算法都用相等來搜尋，而binary_search、lower_bound、upper_bound和equal_range則用等價。

要測試在有序區間中是否存在一個值，使用binary_search。不像标準C庫中的（是以也是标準C++庫中的）bsearch，binary_search隻傳回一個bool：這個值是否找到了。binary_search回答這個問題：“它在嗎？”它的回答隻能是是或者否。如果你需要比這樣更多的資訊，你需要一個不同的算法。

這裡有一個binary_search應用于有序vector的例子（你可以從條款23中知道有序vector的優點）：

vector<Widget> vw; // 建立vector，放入

... // 資料，

sort(vw.begin(), vw.end()); // 把資料排序

Widget w; // 要找的值

if (binary_search(vw.begin(), vw.end(), w)) {

... // w在vw中

如果你有一個有序區間而且你的問題是：“它在嗎，如果是，那麼在哪兒？”你就需要equal_range，但你可能想要用lower_bound。我會很快讨論equal_range，但首先，讓我們看看怎麼用lower_bound來在區間中定位某個值。

當你用lower_bound來尋找一個值的時候，它傳回一個疊代器，這個疊代器指向這個值的第一個拷貝（如果找到的話）或者到可以插入這個值的位置（如果沒找到）。是以lower_bound回答這個問題：“它在嗎？如果是，第一個拷貝在哪裡？如果不是，它将在哪裡？”和find一樣，你必須測試lower_bound的結果，來看看它是否指向你要尋找的值。但又不像find，你不能隻是檢測lower_bound的傳回值是否等于end疊代器。取而代之的是，你必須檢測lower_bound所标示出的對象是不是你需要的值。

很多程式員這麼用lower_bound：

vector<Widget>::iterator i = lower_bound(vw.begin(), vw.end(), w);

if (i != vw.end() && *i == w) { // 保證i指向一個對象；

// 也就保證了這個對象有正确的值。

// 這是個bug！

... // 找到這個值，i指向

// 第一個等于該值的對象

... // 沒找到

大部分情況下這是行得通的，但不是真的完全正确。再看一遍檢測需要的值是否找到的代碼：

if (i != vw.end() && *i == w) ...

這是一個相等的測試，但lower_bound搜尋用的是等價。大部分情況下，等價測試和相等測試産生的結果相同，但就像條款19論證的，相等和等價的結果不同的情況并不難見到。在這種情況下，上面的代碼就是錯的。

要完全完成，你就必須檢測lower_bound傳回的疊代器指向的對象的值是否和你要尋找的值等價。你可以手動完成（條款19示範了你該怎麼做，當它值得一做時條款24提供了一個例子），但可以更狡猾地完成，因為你必須确認使用了和lower_bound使用的相同的比較函數。一般而言，那可以是一個任意的函數（或函數對象）。如果你傳遞一個比較函數給lower_bound，你必須确認和你的手寫的等價檢測代碼使用了相同的比較函數。這意味着如果你改變了你傳遞給lower_bound的比較函數，你也得對你的等價檢測部分作出修改。保持比較函數同步不是火箭發射，但卻是另一個要記住的東西，而且我想你已經有很多需要你記的東西了。

這兒有一個簡單的方法：使用equal_range。equal_range傳回一對疊代器，第一個等于lower_bound傳回的疊代器，第二個等于upper_bound傳回的（也就是，等價于要搜尋值區間的末疊代器的下一個）。是以，equal_range，傳回了一對劃分出了和你要搜尋的值等價的區間的疊代器。一個名字很好的算法，不是嗎？（當然，也許叫equivalent_range會更好，但叫equal_range也非常好。）

對于equal_range的傳回值，有兩個重要的地方。第一，如果這兩個疊代器相同，就意味着對象的區間是空的；這個隻沒有找到。這個結果是用equal_range來回答“它在嗎？”這個問題的答案。你可以這麼用：

vector<Widget> vw;

sort(vw.begin(), vw.end());

typedef vector<Widget>::iterator VWIter; // 友善的typedef

typedef pair<VWIter, VWIter> VWIterPair;

VWIterPair p = equal_range(vw.begin(), vw.end(), w);

if (p.first != p.second) { // 如果equal_range不傳回

// 空的區間...

... // 說明找到了，p.first指向

// 第一個而p.second

// 指向最後一個的下一個

... // 沒找到，p.first和

// p.second都指向搜尋值

} // 的插入位置

這段代碼隻用等價，是以總是正确的。

第二個要注意的是equal_range傳回的東西是兩個疊代器，對它們作distance就等于區間中對象的數目，也就是，等價于要尋找的值的對象。結果，equal_range不光完成了搜尋有序區間的任務，而且完成了計數。比如說，要在vw中找到等價于w的Widget，然後列印出來有多少這樣的Widget存在，你可以這麼做：

VWIterPair p = equal_range(vw.begin(), vw.end(), w);

cout << "There are " << distance(p.first, p.second)

<< " elements in vw equivalent to w.";

到目前為止，我們所讨論的都是假設我們要在一個區間内搜尋一個值，但是有時候我們更感興趣于在區間中尋找一個位置。比如，假設我們有一個Timestamp類和一個Timestamp的vector，它按照老的timestamp放在前面的方法排序：

class Timestamp { ... };

bool operator<(const Timestamp& lhs, // 傳回在時間上lhs

const Timestamp& rhs); // 是否在rhs前面

vector<Timestamp> vt; // 建立vector，填充資料，

... // 排序，使老的時間

sort(vt.begin(), vt.end()); // 在新的前面

現在假設我們有一個特殊的timestamp——ageLimit，而且我們從vt中删除所有比ageLimit老的timestamp。在這種情況下，我們不需要在vt中搜尋和ageLimit等價的Timestamp，因為可能不存在任何等價于這個精确值的元素。取而代之的是，我們需要在vt中找到一個位置：第一個不比ageLimit更老的元素。這是再簡單不過的了，因為lower_bound會給我們答案的：

Timestamp ageLimit;

vt.erase(vt.begin(), lower_bound(vt.begin(), // 從vt中排除所有

vt.end(), // 排在ageLimit的值

ageLimit)); // 前面的對象

如果我們的需求稍微改變了一點，我們要排除所有至少和ageLimit一樣老的timestamp，也就是我們需要找到第一個比ageLimit年輕的timestamp的位置。這是一個為upper_bound特制的任務：

vt.erase(vt.begin(), upper_bound(vt.begin(), // 從vt中除去所有

vt.end(), // 排在ageLimit的值前面

ageLimit)); // 或者等價的對象

如果你要把東西插入一個有序區間，而且對象的插入位置是在有序的等價關系下它應該在的地方時，upper_bound也很有用。比如，你可能有一個有序的Person對象的list，對象按照name排序：

class Person {

public:

...

const string& name() const;

};

struct PersonNameLess:

public binary_function<Person, Person, bool> { // 參見條款40

bool operator()(const Person& lhs, const Person& rhs) const

{

return lhs.name() < rhs.name();

}

list<Person> lp;

lp.sort(PersonNameLess()); // 使用PersonNameLess排序lp

要保持list仍然是我們希望的順序（按照name，插入後等價的名字仍然按順序排列），我們可以用upper_bound來指定插入位置：

Person newPerson;

lp.insert(upper_bound(lp.begin(), // 在lp中排在newPerson

lp.end(), // 之前或者等價

newPerson, // 的最後一個

PersonNameLess()), // 對象後面

newPerson); // 插入newPerson

這工作的很好而且很友善，但很重要的是不要被誤導——錯誤地認為upper_bound的這種用法讓我們魔術般地在一個list裡在對數時間内找到了插入位置。我們并沒有——條款34解釋了因為我們用了list，查找花費線性時間，但是它隻用了對數次的比較。

一直到這裡，我都隻考慮我們有一對定義了搜尋區間的疊代器的情況。通常我們有一個容器，而不是一個區間。在這種情況下，我們必須差別序列和關聯容器。對于标準的序列容器（vector、string、deque和list），你應該遵循我在本條款提出的建議，使用容器的begin和end疊代器來劃分出區間。

這種情況對标準關聯容器（set、multiset、map和multimap）來說是不同的，因為它們提供了搜尋的成員函數，它們往往是比用STL算法更好的選擇。條款44詳細說明了為什麼它們是更好的選擇，簡要地說，是因為它們更快行為更自然。幸運的是，成員函數通常和相應的算法有同樣的名字，是以前面的讨論推薦你使用的算法count、find、equal_range、lower_bound或upper_bound，在搜尋關聯容器時你都可以簡單的用同名的成員函數來代替。

調用binary_search的政策不同，因為這個算法沒有提供對應的成員函數。要測試在set或map中是否存在某個值，使用count的慣用方法來對成員進行檢測：

set<Widget> s; // 建立set，放入資料

Widget w; // w仍然是儲存要搜尋的值

if (s.count(w)) {

... // 存在和w等價的值

... // 不存在這樣的值

要測試某個值在multiset或multimap中是否存在，find往往比count好，因為一旦找到等于期望值的單個對象，find就可以停下了，而count，在最遭的情況下，必須檢測容器裡的每一個對象。（對于set和map，這不是問題，因為set不允許重複的值，而map不允許重複的鍵。）

但是，count給關聯容器計數是可靠的。特别，它比調用equal_range然後應用distance到結果疊代器更好。首先，它更清晰：count 意味着“計數”。第二，它更簡單；不用建立一對疊代器然後把它的組成（譯注：就是first和second）傳給distance。第三，它可能更快一點。

要給出所有我們在本條款中所考慮到的，我們的從哪兒着手？下面的表格道出了一切。

你想知道的

在無序區間

在有序區間

在set或map上

在multiset或multimap上

期望值是否存在？

find

binary_search

count

期望值是否存在？如果有，第一個等于這個值的對象在哪裡？

find

equal_range

find或lower_bound（參見下面）

第一個不在期望值之前的對象在哪裡？

find_if

lower_bound

第一個在期望值之後的對象在哪裡？

upper_bound

有多少對象等于期望值？

equal_range，然後distance

等于期望值的所有對象在哪裡？

find（疊代）

equal_range

上表總結了要怎麼操作有序區間，equal_range的出現頻率可能令人吃驚。當搜尋時，這個頻率因為等價檢測的重要性而上升了。對于lower_bound和upper_bound，它很容易在相等檢測中退卻，但對于equal_range，隻檢測等價是很自然的。在第二行有序區間，equal_range打敗了find還因為一個理由：equal_range花費對數時間，而find花費線性時間。

對于multiset和multimap，當你在搜尋第一個等于特定值的對象的那一行，這個表列出了find和lower_bound兩個算法作為候選。已對于這個任務find是通常的選擇，而且你可能已經注意到在set和map那一列裡，這項隻有find。但是對于multi容器，如果不隻有一個值存在，find并不保證能識别出容器裡的等于給定值的第一個元素；它隻識别這些元素中的一個。如果你真的需要找到等于給定值的第一個元素，你應該使用lower_bound，而且你必須手動的對第二部分做等價檢測，條款19的内容可以幫你确認你已經找到了你要找的值。（你可以用equal_range來避免作手動等價檢測，但是調用equal_range的花費比調用lower_bound多得多。）

在count、find、binary_search、lower_bound、upper_bound和equal_range中做出選擇很簡單。當你調用時，選擇算法還是成員函數可以給你需要的行為和性能，而且是最少的工作。按照這個建議做（或參考那個表格），你就不會再有困惑。

STL之二分查找 (Binary search in STL)

繼續閱讀

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

一文看懂字元串的加減乘除

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

C++實作簡單順序表

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

C經典書籍筆記——C陷阱與缺陷②(文法陷阱之優先級)一、錯誤案列二、優先級規律

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

線性表之順序表的實作

面試題解析：你接口測試是怎麼做的？

C++判斷素數、求最大公約數代碼判斷一個數是否為素數求兩個數的最大公約數

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希