1、caffe調用caffe train出錯:
F0212 20:20:50.783892 23403 cudnn_conv_layer.cpp:53] Check failed: status == CUDNN_STATUS_SUCCESS (4 vs. 0) CUDNN_STATUS_INTERNAL_ERROR
*** Check failure stack trace: ***
@ 0x7ff56413d5cd google::LogMessage::Fail()
@ 0x7ff56413f433 google::LogMessage::SendToLog()
@ 0x7ff56413d15b google::LogMessage::Flush()
@ 0x7ff56413fe1e google::LogMessageFatal::~LogMessageFatal()
@ 0x7ff56490289b caffe::CuDNNConvolutionLayer<>::LayerSetUp()
@ 0x7ff5647bcd89 caffe::Net<>::Init()
@ 0x7ff5647bf4be caffe::Net<>::Net()
@ 0x7ff564780839 caffe::Solver<>::InitTrainNet()
@ 0x7ff564781ce5 caffe::Solver<>::Init()
@ 0x7ff564781fff caffe::Solver<>::Solver()
@ 0x7ff5647718e1 caffe::Creator_SGDSolver<>()
@ 0x40a918 train()
@ 0x407668 main
@ 0x7ff562eca830 __libc_start_main
@ 0x407f39 _start
@ (nil) (unknown)
Aborted
按照如下方法,将engine:CAFFE注釋掉。
https://github.com/shicai/MobileNet-Caffe/issues/3

2、按照1修改後,訓練,但讀到conv5-3還是報同樣的錯
(1)搜尋資料,發現這個錯的原因,還有可能是記憶體溢出
是以,懷疑是否是記憶體溢出問題,将batch size從1000改成256,再改成128,再改成10都不行
(2)确定caffe編譯時是支援cudnn的,是以,将1中的engine:caffe恢複,再将batch size修改下,訓練成功。