Jump to content
Форум по продукции MOXA

Приколы с SNMP, IKS 6726.


Recommended Posts

   День добрый. В работе имеется кольцо на 4-х коммутаторах модели IKS-6726A-2GTXSFP-T. Мониторились успешно через Zabbix. Всё исправно работало без нареканий 4 года. И вот третьего дня в сети был поставлен ещё один сервер Zabbix. После чего начались перезагрузки всех коммутаторов каждые 3-5 мин. с сообщением в логе "Warm start by Self Diagnostic Reboot", а один из 4-х коммутаторов вообще повесился наглухо. Помогло полное отключение SNMP на коммутаторах. А тот, что отвалился, вернулся после перезагрузки вручную и отключения SNMP. Мысль такая - видимо, два Zabbix'а своим количеством SNMP запросов уронили коммутаторы. Полез на сайт производителя, почитал Release notes прошивок и обнаружил, что в версии 5.7 (на момент нашей проблемы стояла 5.6) был устранён некий баг "SNMP memory leak". Ну, думаю, скорее всего тут и зарыта собака. Ну я, значит, собаку то откопал, поставил самую новую прошивку (сейчас стоит V5.8 build 21072216) и... таки да, помогло. Всё хорошо, но не совсем. Теперь проблема появляется но сильно реже, например раз в сутки, - один из коммутаторов возьмёт да перезагрузится. Это почти незаметно, однако, как говорится, мелочь, а неприятно. Хотелось бы узнать, пофиксили баг до конца или всё-таки какой-то костыль прикрутили? Планируется ли решение более кардинальное? Понятно, что можно и второй Zabbix убрать, и SNMP запросы сделать реже...но хотелось бы решения какого-то... системного чтоли.

Link to comment

Добрый день. Есть ли уверенность, что Zabbix взаимодействует с коммутаторами только по SNMP? Не производит ли он (внезапно) мониторинг доступности и других сервисов, SSH, например?

Link to comment

Нет, не производит. Уверенность 100%. Кстати, заметил ещё такую штуку... повесил ACL (ip based) на порты, задействованные в режиме Turbo Ring, такого вида: 1 permit src X.X.X.X dst any udp dport 161, 2 deny src any dst any udp dport 161, 3 permit any any. Один коммутатор без проблем, второй тупо повесился. Ребутнули, перестал быть доступен из других сетей, зашли напрямую по mgmt влану с перебоями. Убрали acl - стало норм. Я так понял - он в режиме any/any зачем-то обрабатывает все пакеты, а не врубает режим "по умолчанию", который, как в cisco, например, не жрёт ресурсы...

   Я больше скажу... с SNMP у данной модели вообще проблемы. Взять хотябы стандартный mib, и попробовать опросить все порты.. с удивлением можно обнаружить, что портов там не 26, а на порядки больше...появляются какие-то порты с номерами из 4-6 знаков и их так много, что заббикс вешается тут же. Это вот если просто попробовать стандартный mib. Я понимаю, кто-то видит "лишние" интерфейсы вроде консольных, ip, вланов...но откуда там сотни портов с неизвестными номерами...не понятно. Пришлось натравить регулярки, чтоб не создавали сь лишние элементы данных.

Link to comment

К несчастью, известных проблем с SNMP в прошивке 5.8 для IKS-67xxA  нет :lol: Что бы понять, что происходит, приведите, плз, серийные номера всех 4х коммутаторов кольца в формате ABCDE1234567

Link to comment

Ну такое я вполне допускаю. Проблема как раз в том, что проблема неизвестная :) Серийники пожалуйста: TAIAD1043343, TAHLD1042926, TAHLD1042845, TAHLD1042931.

А прикол с сотнями номеров портов, полученных по SNMP - это не только IKS 6726... ещё как минимум IKS 6824. Он существует со времен версии прошивки 4.x.

Link to comment

Ага, спасибо. Раз в сутки - это более/менее цикличный процесс? То есть с достаточной точностью можно предсказать, что, скажем, SW1 "зависнет" в 15 часов, например?

Link to comment

Дамп и нам бы пригодился, его снять пока проблематично, но, думаю, организуем. Побаиваюсь пока порты зеркалить... получится как с ACL-ом..повесится ещё.

Link to comment

   Ещё вопрос. Пользуемся технологией turbo ring v2, всё хорошо, но есть нюанс. Кольца в случае обрыва пересобираются быстро, однако, в случаях, скажем утечки памяти на кольцевых железках (из-за бага, например), линк может то падать, то снова восстанавливаться, и собственно, весь трафик прыгает, аля "то есть, то нет". Также из-за проблем на линии или в SFP-модуле линк, а вместе с ним и система колец, начинает дёргаться туда-сюда. Если ли возможность добавить в настройки коммутаторов типа IKS 6824 и 6726 опцию времени обратного переключения на восстановившийся после обрыва линк, задействованный в turbo ring? Чтоб принудительно master держал его в состоянии blocked в течение указанного времени после его восстановления? Это бы сущесвтвенно улучшило поведение колец в таких случаях.

Link to comment

На "быстрых" протоколах типа TRv2 такой недостаток непобедим в силу особенности их реализации. Перейдите на TRv1, думаю, в таком случае, будет работать стабильнее (хотя и медленнее).

Link to comment

Тут дело не в стабильности - к ней претензий нет. Просто если реально дёргать линк с высокой частотой, то любой протокол будет то блокировать, то разрешать трафик на порту. А вот ручной таймер, скажем, на 5-10 минут сведёт на нет дрожание линка, вызванное любой причиной.... переключил себе и сидит на резервном.. а основной пускай дергается, и фиг с ним - в блок на полчаса и всё, каждый разрыв просто обновляет таймер. Скорость turbo ring - это в 1-ю очередь скорость устранения разрыва, а скорость восстановления при этом едва ли важна.

Link to comment

Ну, конечно, если линк итак был в блоке или не основной, то да.. но ситуация вцелом такая, что дергание происходит часто и на том линке, который по факту основной. Может, LAG-о подобное что-нибудь и спасет, но вцелом это не дело. А разве плохо было бы предложенным способом улучшить возможности протокола? Просто галочка "ручное восстановление" и "время переключения на мастера обратно"?

Link to comment

Почему петля. Турбо ринг блокирует backup порты. Если основной линк рвётся, он их быстро поднимает. Так вот можно добавить фишку такую: когда основной линк порвался и backup порты включились, порт на том линке, который оборвался, переходит в состояние backup и в нём и остаётся (то есть в заблокированном программно backup состоянии) в течение таймера, даже если линк снова поднимется.

Link to comment

Он - это протокол turbo ring. На master'е этот протокол ответственен за активацию backup линков в случае разрыва основных. То есть, как только backup порты стали активны, основной порт переходит в состояние backup и возвращается из этого состояния по ручному таймеру, не обращая внимания на то, если даже линк поднимется. Суть от этого не меняется, но появится возможность убрать последствия "дрожания" линков.

Link to comment

"Он - это протокол turbo ring" - это не так, непосредственно протокол статусами портов не управляет. Так кто этот "он" из предыдущего сообщения?

Link to comment

Ну я так понимаю, операционка вместе с софтом, реализующим все функции коммутатора, живёт в этот самом коммутаторе, в ПЗУ каком нть.. и прочих мискросхемах.. если нет - поправьте. 

Link to comment

Нет, требуется настройка, естественно. И когда турбо ринг настроен на всех участниках кольца, то эти участники, вероятно, обмениваются каким то служебным трафиком... ну и, возможно, все знают о состоянии мастера, в соотвествии с которым принимают решение о блокировке портов. Ну как то так, думаю. Ну и если б мастер заблокил порт по таймеру - об этом все бы точно так же узнали, и вобщем то никаких проблем.

Link to comment

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...