誰更勝一籌？——随機搜尋 V.S. 網格搜尋

誰更勝一籌？--随機搜尋 v.s. 網格搜尋

我想通過測試來得到自己的答案，我的實驗設定如下。給定空間為（1024,1024）的超參數空間，可由相同形狀的矩陣表示。我們為尋找最佳超參數設定的預算是25個實驗。是以，這将允許我們進行網格搜尋，其中我們設定每個超參數有5個值的組合，或者在該空間中的25個随機搜尋。此外，我設定了一個“批量”版本的随機搜尋，執行5批次每批次5次随機搜尋，優化調整每次批次後的搜尋。生成多個這樣的随機超參數空間後，計算兩種随機搜尋優于網格搜尋的次數。

生成空間

這一步是生成随機2d超參數空間，例如某種地形。

它是一個簡單而優雅的算法。

代碼如下：

from __future__ import division, print_function

import numpy as np

import matplotlib.pyplot as plt

import matplotlib.cm as cm

import operator

%matplotlib inline

size = 1024

num_iterations = 200

terrain = np.zeros((size, size), dtype="float")

mod_iter =

num_iterations // 10

for iter in range(num_iterations):

if iter % mod_iter == 0:

print("iteration: {:d}".format(iter))

= int(np.random.uniform(0, 0.2 * size))

xc, yc = np.random.randint(0, size - 1, 2)

= 0

xmin, xmax = int(max(xc - r, 0)), int(min(xc + r,

size))

ymin, ymax = int(max(yc - r, 0)), int(min(yc + r,

for x in range(xmin, xmax):

for y in range(ymin, ymax):

z = (r ** 2) - ((x - xc)

** 2 + (y - yc) ** 2)

if z > 0:

terrain[x, y] += z

print("total

iterations: {:d}".format(iter))

# 标準化單元高度

zmin = np.min(terrain)

terrain -=

zmin

zmax = np.max(terrain)

terrain /=

zmax

terrain = np.power(terrain, 2)

# 乘以255以使地形以灰階表示

terrain =

terrain * 255

terrain.astype("uint8")

從上面代碼生成的一個可能的地形如下所示。

我還為它生成了一個等高線圖。

plt.title("terrain")

image = plt.imshow(terrain, cmap="gray")

plt.ylim(max(plt.ylim()), min(plt.ylim()))

plt.colorbar(image,

shrink=0.8)

plt.title("contours")

contour = plt.contour(terrain, linewidths=2)

plt.colorbar(contour,

shrink=0.8, extend='both')

網格搜尋

如您所見，地形隻是一個形狀矩陣（1024，1024）。

由于我們的預算是25個實驗，我們将在這個地形上進行一次5x5的網格搜尋。

意即在x和y軸上選擇5個等距點，并讀取這些（x，y）位置處的地形矩陣值。

執行此操作的代碼如下所示。

在輪廓圖上的點的最佳值以藍色标示。

# 執行 (5x5)網格搜尋

results = []

for x in np.linspace(0, size-1, 5):

for y in np.linspace(0, size-1, 5):

xi, yi = int(x), int(y)

results.append([xi, yi, terrain[xi, yi]])

best_xyz = [r for r in sorted(results, key=operator.itemgetter(2))][0]

grid_best =

best_xyz[2]

print(best_xyz)

xvals = [r[0] for r in

results]

yvals = [r[1] for r in

plt.title("grid search")

plt.scatter(xvals,

yvals, color="b", marker="o")

plt.scatter([best_xyz[0]], [best_xyz[1]], color='b', s=200, facecolors='none', edgecolors='b')

plt.colorbar(contour)

網格搜尋中最優點坐标為（767，767），值為109。

随機搜尋

接下來進行實驗的是純随機搜尋。由于實驗預設為25個，是以這裡僅随機生成x值和y值，然後在這些點中搜尋地形矩陣值。

# 進行随機搜尋

xvals, yvals, zvals = [], [], []

for i in range(25):

= np.random.randint(0, size, 1)[0]

results.append((x, y, terrain[x, y]))

best_xyz = sorted(results, key=operator.itemgetter(2))[0]

rand_best = best_xyz[2]

xvals = [r[0] for r in results]

yvals = [r[1] for r in results]

plt.title("random search")

在該測試中，随機搜尋做得更好一些，找到坐标為(663，618)值為103的點。

批量随機搜尋

在這種方法中，我決定将我的25個實驗預算分成5批，每批5個實驗。

查找（x，y）值在每個批次内是随機的。

同時，在每個批次結束時，優勝者會被挑出來進行特殊處理。

采用對象不是在空間中任何地方生成的點，而是在這些點周圍繪制一個視窗，并且僅從這些空間進行采樣。

在每次疊代時，視窗會進行幾何收縮。我試圖尋找到目前為止找到的最優點的鄰域中的點，希望這個搜尋将産生更多的最優點。

同時，我保留剩餘的實驗探索空間，希望我可能找到另一個最佳點。

其代碼如下所示：

def cooling_schedule(n, k):

""" 每次運作時減少視窗的大小

n – 批次數目

k – 目前批次的索引号

傳回乘數(0..1) 的大小

"""

return (n - k) / n

results, winners = [],

[]

for bid in range(5):

print("batch

#: {:d}".format(bid), end="")

# 計算視窗大小

window_size = int(0.25 * cooling_schedule(5,

bid) * size)

# 計算出優勝者并把其值加入結果中

# 隻保持最優的兩點

for x, y, _, _ in

winners:

if x <

size // 2:

# 中左區

xleft = max(x - window_size // 2, 0)

xright = xleft +

window_size

else:

# 中右區

xright = min(x + window_size // 2, size)

xleft = xright -

if y <

# 下半區

ybot = max(y - window_size // 2, 0)

ytop = ybot +

# 上半區

ytop = min(y + window_size // 2, 0)

ybot = ytop -

xnew = np.random.randint(xleft, xright, 1)[0]

ynew = np.random.randint(ybot, ytop, 1)[0]

znew = terrain[xnew, ynew]

results.append((xnew, ynew, znew, bid))

# 添加剩餘随機點

for i in range(5 - len(winners)):

x = np.random.randint(0, size, 1)[0]

y = np.random.randint(0, size, 1)[0]

z = terrain[x, y]

results.append((x, y, z, 2))

# 找出最優兩點

winners = sorted(results, key=operator.itemgetter(2))[0:2]

print("

best: ", winners[0])

plt.title("batched random search")

結束時此空間中的全局最小點坐标（707,682），值為20。

顯然，并不是所有的運作都是如此順利的，也很有可能從上述任何方法發現的點隻是一個局部最小值。

此外，沒有理由假定網格搜尋可能不優于随機搜尋，因為随機地形可能在其中一個均勻布置的點下面具有其全局最小點，并且随機搜尋可能錯過該點。

為了檢查這個假設，我對1000個随機地形批量運作上面的代碼。

對于每個地形，我為3種方法中的每一種運作25個實驗，并為每個方法找到最低（最優）點。我這樣做了兩次，以確定結果的客觀性。代碼如下：

terrain_size = 1024

num_hills = 200

num_trials = 1000

num_searches_per_dim = 5

num_winners = 2

nbr_random_wins = 0

nbr_brand_wins = 0

for i in range(num_trials):

terrain = build_terrain(terrain_size, num_hills)

grid_result = best_grid_search(terrain_size,

num_searches_per_dim)

random_result = best_random_search(terrain_size,

num_searches_per_dim**2)

batch_result = best_batch_random_search(terrain_size,

num_searches_per_dim,

num_winners)

print(grid_result, random_result, batch_result)

if random_result <

grid_result:

nbr_random_wins += 1

if batch_result < grid_result:

nbr_brand_wins += 1

print("#

times random search wins: {:d}".format(nbr_random_wins))

times batch random search wins: {:d}".format(nbr_brand_wins))

執行結果如下：

run-1

------

#-times random search wins: 619 ‘随機搜尋優勝次數

run-2

#-times random search wins: 640 ‘随機搜尋優勝次數

#-times batch random search wins: 621随機批量搜尋優勝次數

結果表明随機搜尋似乎比網格搜尋稍好（因為第一個數字超過500）。

此外，批量版本不一定更好，因為純随機搜尋在第二次運作有更好的結果。

<a href="https://promotion.aliyun.com/ntms/act/ambassador/sharetouser.html?usercode=lwju78qa&utm_source=lwju78qa">數十款阿裡雲産品限時折扣中，趕緊點選領劵開始雲上實踐吧！</a>

作者簡介：

sujit pal是一名程式員，在healline

networks擔任技術管理。喜好研究程式設計語言java和python，喜歡從多角度研究和解決問題。

文章原标題《random vs grid search: which

is better?》，作者：sujit pal ，譯者：伍昆

誰更勝一籌？——随機搜尋 V.S. 網格搜尋

繼續閱讀

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

筆試面試題目：滑動視窗(二)

27. Remove Element(清單)題目代碼

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

hdu7108哈希