最差小区掉线类问题排查方法
来源:优橙教育 时间:2021-02-23 16:17:38
1、影响掉话问题的常见因素
2、整体分析思路
规定动作名称 |
分析目的 |
1:掉话问题范围、KPI趋势分析、话统原因分解 |
1、掉话率变化趋势和转折点确认。 2、识别出是Top小区问题还是整网问题。 3、根据话统分析掉话的主要原因值。 |
2:参数检查 |
分析参数一致性。 |
3:操作日志+设备故障+告警+外部事件排查 |
1、确认转折点是否有修改参数,软件升级,更改license操作。 2、确认转折点是否有影响掉话的故障和告警。 |
4:版本差异和已知问题排查 |
分析是否由版本已知问题导致, TOP小区问题确认版本、补丁与规划一致性。 |
5:网络规划优化 |
排查覆盖,切换,邻区,负载容量问题 |
6:射频通道和干扰排查 |
1、排查射频通道是否存在异常 2、分析是否存在上行干扰 |
7:TOP用户排查/TOP终端类型 |
1、排查是否存在掉话TOP用户 2、排查掉话是否由某款特殊终端导致。 |
8:核心网异常排查 |
排查异常释放是否由核心网兼容性问题造成 |
9:传输排查 |
排查是否传输问题导致掉话 |
10:投诉及问题复现 |
利用复现加快问题定位,保证客户感受 |
高掉线差小区处理动作
3、掉线问题接入初步分析
3.1 KPI趋势分析
掉话率长期趋势分析,确认是逐渐恶化还是突然恶化。如果是突然恶化,那么在转折点附近寻找异常;如果是逐渐恶化则需要分析负载、容量、当地话务模型。
掉话率趋势线与切换成功率、RB利用率、用户数、CPU负载趋势线密切相关。可以通过这些趋势线推导掉话率恶化原因。
(掉话率趋势图)
4、参数核查
参数核查需要进行全参数核查,掉话强相关的参数需要优先确认。
具体参数设置规范详见2.5.1中所列附件“LTE无线参数设置规范V3.1.xlsx”。
MO |
类别 |
参数 ID |
参数名称 |
注意事项及说明 |
eNodeB连接状态定时器配置 |
无线类 |
S1MessageWaitingTimer |
等待MME S1接口响应消息定时器 |
与X2超时定时器保持一致性,并且小于空口等待定时器 |
eNodeB连接状态定时器配置 |
X2MessageWaitingTimer |
等待对端ENB X2接口响应消息定时器 |
与S1超时定时器保持一致性,并且小于空口等待定时器 |
|
eNodeB连接状态定时器配置 |
UuMessageWaitingTimer |
ENB等待UE返回空口响应消息定时器 |
应大于S1/X2接口的等待定时器 |
|
UE控制定时器配置 |
UeInactiveTimer |
UE不活动定时器 |
改小对掉话率有增益,增加信令风暴,改大对掉话负增益,减少信令风暴 |
|
RLCPDCP参数组 |
UeMaxRetxThreshold |
AM PDU最大重传次数 |
重传次数变大,对掉话率有改善,用户感受变差 |
|
RLCPDCP参数组 |
ENodeBMaxRetxThreshold |
eNodeB AM模式RLC ARQ最大重传次数 |
重传次数变大,对掉话率有改善,用户感受变差 |
|
UE定时器常量信息 |
T310 |
定时器 310 |
改小对掉话率有冲击,改大影响用户感受 |
|
UE定时器常量信息 |
T311 |
定时器 311 |
改小对掉话率有冲击,改大影响用户感受 |
|
UE定时器常量信息 |
N311 |
常量 N311 |
改小对掉话率有冲击,改大影响用户感受 |
|
UE定时器常量信息 |
N310 |
常量 N310 |
改小对掉话率有冲击,改大影响用户感受 |
|
PDCCH算法参数 |
InitPdcchSymNum |
PDCCH初始OFDM符号数 |
设置初始符号为1符号,边缘用户解调有困难 |
|
PDCCH算法参数 |
PdcchSymNumSwitch |
PDCCH占用OFDM符号数动态调整开关 |
初始符号为1符号,必须打开 |
|
小区重选参数 |
CELLRESEL(异频) :SNonIntraSearchCfgInd=CFG, SNonIntraSearch, SNonIntraSearchQ; |
异频和异系统的小区重选参数 |
MOCN场景下,对不同运营商由于覆盖引起的掉话率差别会带来一定影响 |
|
UTRANNFREQ(异系统): |
||||
SNonIntraSearchCfgInd=CFG, SNonIntraSearch,ThrshServLow,ThreshXHigh, ThreshXLow |
||||
核心网参数 |
核心网类 |
PBR |
专有承载参数 |
设置无限大会导致异常释放 |
5、操作日志+设备故障+告警/外部事件排查
对于与掉话不相关或影响不大的告警,可以暂缓处理;但对于影响掉话和网络性能的告警,需要首先处理完成。
名称 |
类别 |
影响 |
可能原因 |
ALM-26521 射频单元接收通道RTWP/RSSI过低告警 |
射频类 |
射频单元的灵敏度下降,小区解调性能变差,上行覆盖变小 |
射频单元接收通道故障 |
ALM-26522 射频单元接收通道RTWP/RSSI不平衡告警 |
射频单元的灵敏度下降,小区解调性能变差,上行覆盖变小 |
射频单元的主集或分集接收通道故障或干扰 |
|
ALM-26506 射频单元光接口性能恶化告警 |
射频单元该端口链路承载的业务质量严重下降 |
光模块老化或安装不合理 |
|
ALM-26529 射频单元驻波告警 |
射频单元自动关闭发射通道开关,该发射通道承载的业务中断 |
天馈安装问题,设备故障 |
|
ALM-26532 射频单元硬件故障告警 |
射频单元可能无法正常工作 |
射频单元内部的硬件故障。 |
|
ALM-26758 塔放运行数据异常告警 |
接收通道的接收灵敏度过大或过小,导致该扇区的覆盖异常 |
塔放运行异常 |
|
ALM-26520 射频单元发射通道增益异常告警 |
造成越区干扰或覆盖空洞 |
射频单元硬件故障 |
|
ALM-29201 S1接口故障告警 |
传输类 |
主动去激活所有与异常的S1接口相关的小区 |
SCTP链路异常 |
ALM-29211 传输网络丢包率过高告警 |
影响掉话,语音质量劣化,数据业务重传变多 |
本地传输线路连接有问题,传输故障 |
|
ALM-29240 小区不可用告警 |
无线类 |
小区不能提供业务,影响邻区切换,造成邻区掉话 |
单板异常,小区异常 |
ALM-29245 小区闭塞告警 |
小区不能提供业务,影响邻区切换,造成邻区掉话 |
用户手动执行闭塞小区命令 |
|
ALM-29246 小区模拟负载启动告警 |
本小区对邻区的下行干扰增大。 |
用户启动小区模拟负载 |
|
ALM-29247 小区PCI冲突告警 |
可能会导致掉话、影响切换性能。 |
PCI规划配置不合理,越区覆盖 |
|
ALM-26120 星卡时钟输出异常告警 |
时钟类 |
基站长时间获取不到参考时钟,会导致基站系统时钟不可用,基站业务处理会出现各种异常,如小区切换失败、掉话等,严重时基站不能提供业务 |
1.星卡软件运行异常 |
2.星卡硬件故障 |
|||
ALM-26121 星卡天线故障告警 |
基站不能与GPS时钟同步,如果基站长时间获取不到参考时钟,会导致基站系统时钟不可用,此时基站业务处理会出现各种异常,如小区切换失败、掉话等,严重时基站不能提供业务。 |
1.星卡硬件故障 |
|
2.2.BBU3900到GPS避雷器的信号线开路或短路 |
|||
3.3.GPS避雷器失效 |
|||
4.馈线开路或短路 |
|||
5.天线故障 |
|||
1.星卡天线故障 |
|||
2.时钟参考源配置错误 |
|||
3.星卡工作模式配置错误 |
|||
ALM-26122 星卡锁星不足告警 |
4.卫星天线周围有干扰、遮挡/星卡硬件故障 |
||
ALM-26123 星卡维护链路异常告警 |
基站不能与星卡通信. |
1. 星卡软件运行异常 |
|
2.星卡硬件故障 |
|||
3.星卡线缆故障 |
|||
ALM-26261 未配置时钟参考源告警 |
如果基站长时间不能与参考时钟源同步,会导致系统时钟不可用,此时基站业务处理会出现各种异常,如小区切换失败、掉话等,严重时基站不能提供业务. |
基站未配置外部时钟参考源 |
|
ALM-26266 时间同步失败告警 |
基站和网管之间时间不同步,导致基站上报的告警、日志等信息和实际时间不一致。 |
1.和SNTP/NTP服务器相连的传输端口故障 |
|
2.时间参考源的配置错 |
|||
3.SNTP/NTP客户端参数配置错误 |
|||
4.网元到SNTP/NTP服务器的路由未配置或路由不可达 |
|||
5.SNTP/NTP服务器未启动服务 |
|||
6.星卡天线故障 |
|||
7.星卡锁星不足 |
|||
ALM-26262 时钟参考源异常告警 |
时钟类 |
基站不能与参考时钟源同步,如果基站长时间获取不到参考时钟,会导致基站系统时钟不可用,此时基站业务处理会出现各种异常,如小区切换失败、掉话等,严重时基站不能提供业务。 |
1.如果时钟参考源是GPS,可能是星卡天线故障或锁星不足 |
2.如果时钟参考源是IP CLK,可能是IP时钟链路异常或时钟参考源不可用 |
|||
3.如果是线路时钟,可能是基站与时钟参考源之间的传输线路故障或参考源的频率与本地时钟频率偏差太大 |
|||
4.时钟参考源的配置错误 |
|||
5.UTRP单板、USCU单板或主控板硬件故障。 |
|||
ALM-26263 IP时钟链路异常告警 |
1.承载IP时钟链路的端口故障 |
||
2.IPCLK链路配置错误 |
|||
3.网元到CLOCK SERVER的路由未配置 |
|||
4.网元到CLOCK SERVER的路由不可达。 |
|||
ALM-26264 系统时钟失锁告警 |
系统时钟异常,导致基站业务处理会出现各种异常,如接入失败、掉话等,业务中断等。 |
1.时钟参考源异常 |
|
2.未配置时钟参考源 |
|||
3.主控板硬件故障 |
|||
4.如果是非主控板上报该告警,可能是单板未插紧 |
|||
5.单板硬件故障 |
|||
ALM-26265 基站同步帧号异常告警 |
单板承载的业务中断。 |
1.主控板系统时钟锁相环失锁 |
|
2.单板未插紧 |
|||
3.单板硬件故障 |
|||
ALM-26267 TOD时钟异常告警 |
基站不能与TOD时钟同步,如果基站长时间获取不到参考时钟,会导致基站系统时钟不可用,此时基站业务处理会出现各种异常,如小区切换失败、掉话等,严重时基站不能提供业务。 |
1.TOD线缆故障 |
|
2.TOD信号源故障 |
|||
3.USCU单板硬件故障 |
6、版本差异和已知问题排查
检查指标异常站点软件版本是否特殊;若全网问题,通过产品配套文档检查是否存在影响接入的已知问题、预警、网元版本匹配问题,首先进行处理。
7、网络规划优化
7.1 弱覆盖排查
TOP小区问题,并且掉话原因主要为Radio类,需要对TOP小区进行弱覆盖排查。
新建、扩容等涉及到基站设备调整的动作发生后产生的掉话问题,要求首先对整网覆盖异常情况进行了解。
根据MR弱覆盖比例高小区 、LTE手机占G网数据流量高比例小区、LTE手机占T网数据流量比例高小区、异系统重定向比例高小区等数据以及现场DT、CQT数据综合分析定位。
7.2 切换异常和邻区分析
分析切换成功率趋势图,是否与掉话率趋势图对应以判断掉话率恶化是否与切换相关。
邻区漏配:在ANR功能关闭的场景下,基站对终端上报的MR不处理时,检查基站配置来查看是否漏配邻区。
PCI规划不合理:确认切换目标小区为与本小区PCI模3相等,或者PCI复用距离过小等场景。
7.3 负载和容量分析
负载分为空口负载,传输负载,单板负载。对掉话率有影响的主要为空口和单板负载。
分析上下行RB利用率与掉话率的关联。
单板CPU使用率VS.Board.CPUload.Max分析, VS.Board.CPUload.Max>90%,则单板负载过高。
L.RRC.SetupFail.ResFail和L.E-RAB.FailEst.NoRadioRes是否出现增长。
分析掉话率随上下行RB利用率的变化趋势,单板CPU使用率的变化趋势,RRC接入拒绝和ERAB建立失败的变化趋势。
8、射频通道和干扰排查
TOP小区问题,并且掉话原因主要为Radio类,需要对TOP小区进行射频通道和干扰排查。
新建、搬迁等涉及到基站设备调整的动作发生后产生的掉话问题,要求重点确认射频告警情况。
9、Top用户/Top终端类型排查
9.1 TOP用户识别
eNB侧无法获取到IMSI,通过TMSI进行判断
1、CHR中会记录用户的TMSI,但在TAU更新中核心网一般会更新用户的TMSI,华为核心网对同一个用户一般只更新TMSI的左起第三、四位,比如0x C06E49A4、0x C06749A4为同一个用户,在统计时可以将这些TMSI统计成一个用户。其它核心网的TMSI一般TAU更新周期为2小时左右,具体要看核心网配置。
2、Top用户占总体异常的比例,Top1用户异常超过70%时界定为Top用户问题。
9.2 TOP终端类型识别
提取一定站点数量的日志,并对CHR中记录UE能力进行统计,将各种UE能力的比例统计出来,筛选出TOP1终端类型。
10、核心网异常排查
在以L.E-RAB.AbnormRel.MME为掉话原因的TOP小区中启动UU/S1信令跟踪,同时USN信令跟踪。
S1口跟踪到的UE CONTEXT RELEASE消息中携带的cause若为radioNetwork:ho-failure-in-target-EPC-ENB-or-target-system,且组网非跨MME的场景下,若L.UL.Interference.Avg超标,优先执行干扰排查。
若结合UU口信令跟踪,确认为切换执行阶段的unspecified原因,而在这种场景下若问题发生在核心网,则联系核心网人员分析;如果问题发生在基站侧,L.UL.Interference.Avg超标优先执行干扰排查。
其他场景,若涉及以下错误,联系核心网人员处理:
1.协议错误,多是ENB和核心网存在参数不兼容,需要根据原因提示解决
2.APN或DNS错误:核心网配置错误
3.未指定错误:依赖核心网人员定位
11、传输排查
非同一传输节点下的TOP小区问题,需要对TOP小区逐个定位;同一传输节点下的局部小区问题,定位传输节点问题;整网问题:统管全网的传输节点问题或UGW异常。
查看是否有传输类告警:ALM-25888 SCTP链路故障告警,ALM-26223 传输光接口性能恶化告警,ALM-29214 网元端口发送丢包率过高告警,ALM-29207 基站控制面传输中断告警,ALM-25880 以太网链路故障告警
检查VLAN,DSCP,IPRT,IPPATH,SCTP等传输参数配置与规划是否一致。