Avg message sent queue time 很高问题

SKYLINE.LIU 发表于 2013-12-8 13:03:17

本帖最后由 SKYLINE.LIU 于 2013-12-8 16:11 编辑

数据库版本 11.1.0.7.0 RAC

最近正在做SQL调优，在节点1 的AWR中，Avg message sent queue time (ms) 高的有点离谱，2s~5s
% of indirect sent messages 大于50%

查看数据库服务器的网卡信息为100M 1000M自适应网卡，硬盘读写性能比较差，硬件升级正在申报中，但新硬件什么时候能下来就要看领导心情了。

基于目前的硬件环境，如何降低Avg message sent queue time？请各位专家给支支招!

节点1 的网卡信息#lsdev -Cc adapter|grep ent

ent8 Available 00-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent9 Available 00-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent10 Available 0A-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent11 Available 0A-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent12 Available 0B-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent13 Available 0B-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)

# netstat -v en8 |grep -i Speed
Media Speed Selected: Auto negotiation
Media Speed Running: 1000 Mbps Full Duplex

# netstat -v en12 |grep -i Speed
Media Speed Selected: Auto negotiation
Media Speed Running: 1000 Mbps Full Duplex
节点2 的网卡信息
#lsdev -Cc adapter|grep ent

ent8 Available 01-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent9 Available 01-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent10 Available 0C-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent11 Available 0C-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent12 Available 0D-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)
ent13 Available 0D-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)

# netstat -v en8 |grep -i Speed
Media Speed Selected: Auto negotiation
Media Speed Running: 1000 Mbps Full Duplex

# netstat -v en12 |grep -i Speed
Media Speed Selected: Auto negotiation
Media Speed Running: 1000 Mbps Full Duplex

Liu Maclean(刘相兵 发表于 2013-12-9 12:13:53

table fetch continued row 145,976,684 4,502.40 1,144.49
table fetch continued row 240,636,086 7,422.13 1,441.22

Segments by Direct Physical Reads
Total Direct Physical Reads: 81,426,283
Captured Segments account for 97.7% of Total
Owner Tablespace Name Object Name Subobject Name Obj. Type Direct Reads %Total
ZFBA ZFBA T_DOC_DOCINSTANCE      TABLE 39,277,014 48.24
ZFBA ZFBA T_DOC_WSQX      TABLE 33,007,280 40.54
ZFBA ZFBA T_DOC_WSQXHIS      TABLE 6,004,372 7.37
ZFBA ZFBA SYS_LOB0000091928C00007$$      LOB 820,060 1.01
ZFBA ZFBA T_RY_JJRYXX      TABLE 325,926 0.40
Back to Segment Statistics
Back to Top

Segments by Physical Writes
Total Physical Writes: 1,076,923
Captured Segments account for 60.2% of Total
Owner Tablespace Name Object Name Subobject Name Obj. Type Physical Writes %Total
ZFBA ZFBA SYS_LOB0000108886C00013$$      LOB 253,301 23.52
ZFBA ZFBA_IDX INDEX_DOC_PARAVALUES_IDCODE      INDEX 113,754 10.56
ZFBA ZFBA SYS_LOB0000091928C00007$$      LOB 46,038 4.27
ZFBA ZFBA_IDX INDEX_DOC_SPRECORDEX_KEYVALUE      INDEX 13,577 1.26
ZFBA ZFBA T_DOC_WSQX      TABLE 11,220 1.04

可能是LOB 引起的table fetch continued row ，或者本身有chained/migrated rows

Liu Maclean(刘相兵 发表于 2013-12-9 12:16:48

Avg message sent queue time (ms): 2,560.6

Cluster 5,491,385 0 20,214 4 7.38

我更倾向于这个 queue time的超长平均等待是 AWR数据讹误或者偶发的现象

SKYLINE.LIU 发表于 2013-12-9 17:01:44

T_DOC_DOCINSTANCE 这个表中有三个CLOB字段，其中只有一个CLOB字段有数据，保存WORD内容

T_DOC_WSQX 与 T_DOC_WSQXHIS 表中没有大字段，但涉及该表的查询语句条件可选择性太差，让ORACLE工程师来调过几次，都没有什么好的办法。

SKYLINE.LIU 发表于 2013-12-9 17:08:46

新获取了周日全天的AWR，节点1的 Avg message sent queue time 还是很高。

系统中链接行/行链接超过1000 行的表，这些表属于基础业务表，用户及公司都不建议整理这些表。
TABLE_NAME NUM_ROWS CHAIN_CNT LAST_ANALYZED
T_RY_JJRYXX 5573006 245154 2013/10/27 12:06:33
T_AJ_JJDJ 5682656 179980 2013/10/23 22:07:48
T_DOC_PROCESSINSTANCE 2348472 145901 2013/10/29 12:24:43
T_DOC_DOCINSTANCE 5208553 10640 2013/10/28 22:34:20
TMP_SJ_JF 24466 3247 2013/9/14 12:17:39
T_RY_JCYYJXX 84941 2522 2013/10/29 12:14:16
T_AJBL_XWBL 369876 2161 2013/10/30 22:16:49
T_AJ_SSAJRYDY 188486 1184 2013/10/26 6:02:49
T_TJBB_FZCLCS 318797 1086 2013/10/29 22:12:22
T_RY_RYCLXX 833368 1048 2013/10/30 22:01:37

SKYLINE.LIU 发表于 2013-12-9 17:15:25

听你的 AWR调优鹰眼二中讲， private network 建议选用10GB带宽。

这样看来，服务器的内部网卡是否也是瓶颈之一呢？即便再快的硬盘读写速度，网卡最快也就125M/s。

Liu Maclean(刘相兵 发表于 2013-12-9 19:49:10

Operating System Statistics - Detail
Snap Time Load %busy %user %sys %idle %iowait
08-Dec 00:00:07 0.42
08-Dec 01:00:11 0.63 3.65 1.35 2.30 2.26 96.35
08-Dec 02:00:16 1.12 3.43 1.15 2.28 2.08 96.57
08-Dec 03:00:20 1.39 3.74 1.71 2.04 0.91 96.26
08-Dec 04:00:25 1.09 3.09 0.97 2.13 0.21 96.91
08-Dec 05:00:16 0.97 3.06 0.93 2.13 0.16 96.94
08-Dec 06:00:34 1.04 2.89 0.86 2.03 0.15 97.11
08-Dec 07:00:17 0.73 3.00 0.88 2.12 0.15 97.00
08-Dec 08:00:38 1.32 3.13 1.00 2.13 0.33 96.87
08-Dec 09:00:41 1.90 4.23 2.12 2.11 1.13 95.77
08-Dec 10:00:01 1.27 5.08 4.34 0.74 1.94 94.92
08-Dec 11:00:19 1.62 3.73 3.19 0.54 2.45 96.27
08-Dec 12:00:10 1.95 2.86 2.37 0.48 2.10 97.14
08-Dec 13:00:35 1.24 1.46 1.06 0.41 0.81 98.54
08-Dec 14:00:04 0.67 1.92 1.50 0.43 1.40 98.08
08-Dec 15:00:15 0.66 1.75 1.30 0.45 1.20 98.25
08-Dec 16:00:15 0.59 1.83 1.33 0.50 0.89 98.17
08-Dec 17:00:35 1.02 2.33 1.82 0.51 0.78 97.67
08-Dec 18:00:53 1.68 4.60 4.09 0.51 2.88 95.40
08-Dec 19:00:10 0.97 1.97 1.50 0.46 1.55 98.03
08-Dec 20:00:22 1.14 1.80 1.35 0.45 0.71 98.20
08-Dec 21:00:24 1.82 3.21 2.72 0.49 0.89 96.79
08-Dec 22:00:50 0.93 3.03 2.50 0.53 3.29 96.97
08-Dec 23:00:04 1.83 2.25 1.77 0.48 1.09 97.75
09-Dec 00:00:11 0.63 1.75 1.32 0.43 1.04 98.25

还是先将IO wait降下来，再讨论该问题，有可能解决了首要问题后，次要问题同时被化解

Liu Maclean(刘相兵 发表于 2013-12-9 19:54:03

Hdr: 6032232 10.2.0.2 RDBMS 10.2.0.2 SVRMAN AWR PRODID-5 PORTID-226
Abstract: AWR REPORT SHOWS INVALID OR HIGH VALUES FOR AVG MESSAGE SENT QUEUE TIME

不知道这个BUG修复了没有

SKYLINE.LIU 发表于 2013-12-9 21:53:44

Liu Maclean(刘相兵发表于 2013-12-9 19:54 static/image/common/back.gif
Hdr: 6032232 10.2.0.2 RDBMS 10.2.0.2 SVRMAN AWR PRODID-5 PORTID-226
Abstract: AWR REPORT SHOWS INVAL ...

我在论坛搜了半天也没搜到，刘大能否给个patch number/博文的标题，明天我去单位查查补丁打了没有~

SKYLINE.LIU 发表于 2013-12-9 21:54:18

非常感谢刘大的耐心回答，受教了！

页: [1]

Oracle数据库数据恢复、性能优化's Archiver

Avg message sent queue time 很高问题