Docker Issue Network Delay
在用自定義Docker網絡跑容器的時候發現一個問題:
Docker的自定義網絡啟動會延遲大概40秒!
換句話說就是:
- 如果你使用自定義網絡在一個容器啟動時想通路另外一個容器會失敗!但是如果你先等待40秒再通路的話就一切正常!
- 如果你使用自定義網絡在一個容器啟動時
另外一個容器會卡住一段時間。
ping
解決:加上啟動腳本檢測網絡是否就緒!
可以用類似下面的腳本檢測服務是否就緒,或者幹脆檢查dmesg消息也可以
until nc -z zk 2181; do echo "waiting for zk to be ready"; sleep 0.5; done
現象
在用自定義Docker網絡跑
Kafka
的時候發現一個現象:
zk
服務正常,但是
Kafka
始終報告連接配接不上
zk
$ docker run --net=br --ip=192.168.33.88 --name=zk -h=zk -d wurstmeister/zookeeper
$ docker run --net=br --ip=192.168.33.91 --name=kf1 -h=kf1 \
-e KAFKA_ZOOKEEPER_CONNECT=zk \
-e KAFKA_LISTENERS=PLAINTEXT://0.0.0.0:9092 \
-e KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://kf1:9092 \
-e KAFKA_BROKER_ID=1 \
--link zk:zk \
-it wurstmeister/kafka
運作後始終報錯:
java.net.NoRouteToHostException: No route to host
at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)
at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:361)
at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1141)
而如果你不用自定義網絡的話則一切正常!
$ docker run --name=zk -h=zk -d wurstmeister/zookeeper
$ docker run --name=kf1 -h=kf1 \
-e KAFKA_ZOOKEEPER_CONNECT=zk \
-e KAFKA_LISTENERS=PLAINTEXT://0.0.0.0:9092 \
-e KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://kf1:9092 \
-e KAFKA_BROKER_ID=1 \
--link zk:zk \
-it wurstmeister/kafka
分析
那麼問題在哪裡呢?經過跟蹤後終于發現問題在于
Docker的自定義網絡啟動會延遲大概40秒
!需要等容器執行個體
dmesg
中出現下列消息的時才能正常通路網絡中的其他容器執行個體,這個等待時間大概是40秒
[ 1077.847733] docker1: topology change detected, propagating
解決
問題找到了,搜尋了一圈也沒有找到怎麼讓這個延遲時間消失的解決方法,好吧,用土辦法:既然是因為網絡還沒準備好,那就等它準備好!
可以用類似下面的腳本檢測服務是否就緒,或者幹脆檢查dmesg消息也可以
until nc -z zk 2181; do echo "waiting for zk to be ready"; sleep 0.5; done
那麼隻要在Docker容器真正開始運作之前先運作上面的腳本檢測網絡是否就緒就可以了,查了一下
wurstmeister/zookeeper
正好有一個
CUSTOM_INIT_SCRIPT
參數可以幹這個事,妥了!
$ docker run --net=br --ip=192.168.33.88 --name=zk -h=zk -d wurstmeister/zookeeper
$ docker run --net=br --ip=192.168.33.91 --name=kf1 -h=kf1 \
-e KAFKA_ZOOKEEPER_CONNECT=zk \
-e KAFKA_LISTENERS=PLAINTEXT://0.0.0.0:9092 \
-e KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://kf1:9092 \
-e KAFKA_BROKER_ID=1 \
-e CUSTOM_INIT_SCRIPT="until nc -z zk 2181; do echo 'waiting for zk to be ready'; sleep 1; done" \
--link zk:zk \
-it wurstmeister/kafka
waiting for kafka to be ready
waiting for zk service ready
......
[2017-12-11 09:04:51,046] INFO [Partition user_events-0 broker=1] No checkpointed highwatermark is found for partition user_events-0 (kafka.cluster.Partition)
[2017-12-11 09:04:51,047] INFO Replica loaded for partition user_events-0 with initial high watermark 0 (kafka.cluster.Replica)
[2017-12-11 09:04:51,050] INFO [Partition user_events-0 broker=1] user_events-0 starts at Leader Epoch 0 from offset 0. Previous Leader Epoch was: -1 (kafka.cluster.Partition)
[2017-12-11 09:04:51,087] INFO [ReplicaFetcherManager on broker 1] Removed fetcher for partitions user_events-0 (kafka.server.ReplicaFetcherManager)
[2017-12-11 09:04:51,087] INFO [Partition user_events-0 broker=1] user_events-0 starts at Leader Epoch 1 from offset 0. Previous Leader Epoch was: 0 (kafka.cluster.Partition)
另外:
- 這個方法也适用于啟動時需要依賴其他服務就緒的情況,比如等待資料庫就緒等
- 或者某些容器服務初始化時間較長,另外的容器需要等它就緒等
https://github.com/SixQuant/e...