Как известно, механизм VMware High Availability использует продукт Legato AAM, позволяющий перехватывать события отказов хостов ESX Server и перезапускать их виртуальные машины на других хостах (при этом виртуальные машины находятся на общем для всех ESX хранилище). AAM устроен так, что кластер имеет 5 Primary-хостов (это первые хосты, добавляемые в кластер), контролирующих этот кластер и управляющих восстановлением виртуальных машин. Таким образом, кластер VMware HA выдерживает до 4-х отказов хостов включительно (при этом неизвестно, что произойдет, если отвалятся все 5 primary-хостов).
Как узнать, какие хосты ESX являются Primary? В сервисной консоли откройте файл:
/opt/LGTOaam512/log/aam_config_util_listnodes.log (для ESX 3.0.x) и
/var/log/vmware/aam/aam_config_util_listnodes.log (для ESX 3.5)
Там будет что-то вроде следующего:
Хосты, обозначенные как Primary - контролируют кластер, берегите их).
Если в колонке State отображается Agent Failed, то необходимо убедиться что этот сервер ESX может общаться с другими хостами кластера по коротким и FQDN-именам, а кроме того, firewall сервера ESX разрешает службу EMC AAM Client.
Ноды кластера VMware HA общаются между собой с интервалом в 1 секунду (этот параметр может быть задан как das.failuredetectioninterval в Advanced Settings). Надо также отметить, что если один Primary-хост отваливается - Secondary-хост не назначается как Primary. Такое происходит только тогда, когда Primary-хост удаляется из кластера (при этом новый Primary-хост назначается случайно).