天天看點

Docker Issue Network Delay(自定義網絡啟動會延遲大概40秒!)Docker Issue Network Delay

Docker Issue Network Delay

在用自定義Docker網絡跑容器的時候發現一個問題:

Docker的自定義網絡啟動會延遲大概40秒!

換句話說就是:
  • 如果你使用自定義網絡在一個容器啟動時想通路另外一個容器會失敗!但是如果你先等待40秒再通路的話就一切正常!
  • 如果你使用自定義網絡在一個容器啟動時

    ping

    另外一個容器會卡住一段時間。

解決:加上啟動腳本檢測網絡是否就緒!

可以用類似下面的腳本檢測服務是否就緒,或者幹脆檢查dmesg消息也可以

until nc -z zk 2181; do echo "waiting for zk to be ready"; sleep 0.5; done
           

現象

在用自定義Docker網絡跑

Kafka

的時候發現一個現象:

zk

服務正常,但是

Kafka

始終報告連接配接不上

zk

$ docker run --net=br --ip=192.168.33.88 --name=zk -h=zk -d wurstmeister/zookeeper
$ docker run --net=br --ip=192.168.33.91 --name=kf1 -h=kf1 \
 -e KAFKA_ZOOKEEPER_CONNECT=zk \
 -e KAFKA_LISTENERS=PLAINTEXT://0.0.0.0:9092 \
 -e KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://kf1:9092 \
 -e KAFKA_BROKER_ID=1 \
 --link zk:zk \
 -it wurstmeister/kafka
           

運作後始終報錯:

java.net.NoRouteToHostException: No route to host
    at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
    at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)
    at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:361)
    at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1141)
           

而如果你不用自定義網絡的話則一切正常!

$ docker run --name=zk -h=zk -d wurstmeister/zookeeper
$ docker run --name=kf1 -h=kf1 \
 -e KAFKA_ZOOKEEPER_CONNECT=zk \
 -e KAFKA_LISTENERS=PLAINTEXT://0.0.0.0:9092 \
 -e KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://kf1:9092 \
 -e KAFKA_BROKER_ID=1 \
 --link zk:zk \
 -it wurstmeister/kafka
           

分析

那麼問題在哪裡呢?經過跟蹤後終于發現問題在于

Docker的自定義網絡啟動會延遲大概40秒

!需要等容器執行個體

dmesg

中出現下列消息的時才能正常通路網絡中的其他容器執行個體,這個等待時間大概是40秒

[ 1077.847733] docker1: topology change detected, propagating
           

解決

問題找到了,搜尋了一圈也沒有找到怎麼讓這個延遲時間消失的解決方法,好吧,用土辦法:既然是因為網絡還沒準備好,那就等它準備好!

可以用類似下面的腳本檢測服務是否就緒,或者幹脆檢查dmesg消息也可以

until nc -z zk 2181; do echo "waiting for zk to be ready"; sleep 0.5; done
           

那麼隻要在Docker容器真正開始運作之前先運作上面的腳本檢測網絡是否就緒就可以了,查了一下

wurstmeister/zookeeper

正好有一個

CUSTOM_INIT_SCRIPT

參數可以幹這個事,妥了!

$ docker run --net=br --ip=192.168.33.88 --name=zk -h=zk -d wurstmeister/zookeeper
$ docker run --net=br --ip=192.168.33.91 --name=kf1 -h=kf1 \
 -e KAFKA_ZOOKEEPER_CONNECT=zk \
 -e KAFKA_LISTENERS=PLAINTEXT://0.0.0.0:9092 \
 -e KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://kf1:9092 \
 -e KAFKA_BROKER_ID=1 \
 -e CUSTOM_INIT_SCRIPT="until nc -z zk 2181; do echo 'waiting for zk to be ready'; sleep 1; done" \
 --link zk:zk \
 -it wurstmeister/kafka
           
waiting for kafka to be ready
waiting for zk service ready
......
[2017-12-11 09:04:51,046] INFO [Partition user_events-0 broker=1] No checkpointed highwatermark is found for partition user_events-0 (kafka.cluster.Partition)
[2017-12-11 09:04:51,047] INFO Replica loaded for partition user_events-0 with initial high watermark 0 (kafka.cluster.Replica)
[2017-12-11 09:04:51,050] INFO [Partition user_events-0 broker=1] user_events-0 starts at Leader Epoch 0 from offset 0. Previous Leader Epoch was: -1 (kafka.cluster.Partition)
[2017-12-11 09:04:51,087] INFO [ReplicaFetcherManager on broker 1] Removed fetcher for partitions user_events-0 (kafka.server.ReplicaFetcherManager)
[2017-12-11 09:04:51,087] INFO [Partition user_events-0 broker=1] user_events-0 starts at Leader Epoch 1 from offset 0. Previous Leader Epoch was: 0 (kafka.cluster.Partition)
           

另外:

  • 這個方法也适用于啟動時需要依賴其他服務就緒的情況,比如等待資料庫就緒等
  • 或者某些容器服務初始化時間較長,另外的容器需要等它就緒等

https://github.com/SixQuant/e...