1、新建/编岗一样发W全扉空间公约GoMenDBFAQINSlGHT问题FAQInSight外场St见问BFAQ由三M0313000145婕.酶由SK三03130229IViK于2024-10-142029:14Q90日4QD定位思路:(各组件日志问题可查看对应大甥8姐%insightAgent问财S)可随便挑一台机器查看详情-住触(据是否正意.若正言说明中间大数据组件一系列流程没有问题切第谢拟下步褰中的第三步-消费kafka,若无法正常消费就看前面的insightAgent、filebeat,kafka问题.否贝!三看后面Iogstash,di,es、insightSerVer以及具体采集字段
2、的问场数据链路大概是:is写采集任务到zk,iagzk定时洞采集脚本写日志到Logcollect.fW6采集内容送到kafka.d谕i费清洗后送到eis从es窗嘘展示i泻蜗件信息.踞集喇zk.4监听z析书点内容、创建采集任匆,恻解频率创理定时翳,定时我.分为残:,跖地执行采集脚轲1果没有大做蛔哂则去捏这个)、历执行为精甸,通过momoa发,送给Oma执行dbtool原车,返回给ia,ia发送到kafka如果个别服务器11a,先查对应服务器的iaiflfb.如为IKSSna,先查。玄curl-uelasticInSight202LeS-XPOST-HContent-TypezappIicatio
3、nZjsonhttp7/$esJp:92M/insight-hostdynamic/_search?prettydsort”:createtime”:消费kafka数据ord:(tescHJjSiZeFregrep-wcreatetimeip,命令说明1检有异常机SSinsightAgent采集日志时间是否更新Lsu-insight2 .检却aJOfbM进程是否存在PS-ef|grepagent-confymlpsef|grepfilebeat(613L脂不ffifflfb)3 .观察采集日志是否更新:cdSHOME/insightAgentIlrtagent/host_shellit-log
4、hoststatk.logIlTtagenthstshellit-logbostdynamiGog4 .检查匕和fb日志是否有报Ig:cdSHOMEZinsightAgentviewagenti11sight.logviewfilebeatfiebeatJog如果进程不存在或有异常.D以三启对应进建重启命令:agentdbmoni-Stopragentdbmoni-startfilebeatdbmoni-stopilebeatdbmoni-start如果hoststatic.log、卜。式(1丫恒1匕109内容不更新,SJginsightagent.K:Il-rtSHOME/insightAg
5、ent/agent/hostsbell/rtJogIl-rtSHOMEZimightAgentZagent店行中IwM缸I2查看kafka集群是否正常su-insight;雌密Z燔枕如牛source-binalarmsender.sh;modifyPasswordzookeeper;#登录Zksh-/bigdata/zookeeper/bin/zkCli.sh-serverIocalhost32181睡入Z垢输入期addauthdigestinsightlnsightZk-2021#检查kafka集群数量是否正确Isbrokersids完之后记得加密回去modifyEncodedPasswor
6、dzookeeper;其他手动解击方式为:修改$HOME/bigdata/ZookeePer/conf/zk_cIientjaSS.conf中的专文为明文(lnsightZk-2021),原密文不可注释掉保留,直接行奂若kafka节J节点号(与$HOMEbigdatakafkaCOnfig/server.PrOPertieS中broker.id5应)去相应机器查看kafka进程及日志($HOME/bigdata/kafka/logs/server.log)是否正常。SS命令:kafkadbmoni-stop;kafkadbmoni-start拍照:Isbrokersids若kafka中无法消费
7、出数据(执行命令后一直卡着)r可查看filebeat进程、日志(JHOMEinsightAgentfiebeat*fiebeatlog)、配置文件(JHOMEinsightAgentfilebeat*fiebeatyml)是否正常重启命令:filebeatdbmoni-StopjfiIebeatdbmoni-stop拍照:左边命令的执行结果PS:Q:报错kafka-console-consumer.sh语法错误vimkafka-console-consumer.sh,删除下图中圈住的部分,保存退出后重新消费。su-insight;source-binalarmsender.sh;modifyP
8、asswordkafka;#进入$HOMEbigdatakafkabin目录,替换相应ip、port,手动消费kafka数据(后面可加Igepip查询具体某个机器的捌g是否正常诩):cd-bigdatakafkabin./kafka-console-consumer.sh-bootstrap-server$ip:9092topichoststaticconsumerconfig.configconsumenproperties.Aafka-console-consumer.sh-bootstrap-server$ip:9092topichostdynamic-consumer.config./
9、config/consumenproperties(如果去除了kafka鉴权,可不修改为明文密码,消费命令为./kafkaconsoleconsumer;sh-bootstrapserver10.229.31227:9092-topichostdynamic./config/consumenproperties)查完之后记得加密回去modifyEncodedPasswordkafka;其他手动解密方式为:修改$HOME/bigdata/kafka/config/kafka_clientJassxonf中的密文为明文(KafkaCIient-202亍,原专文不可注释掉保留,直接替换三ie湫态1
10、查询es集群节点状态:curluserelastic:!nsight2021_es-XGEThttp:/$ip:9200/_cat/nodes?v2 .查询es健康状态:curluserHaStiClnSight202IeS-XGEThttp:/$ip:9200/_cluster/health?prettyB3 .部蜘应ip、潴口查询es数据:curl-HContent-Type:applicationjson-userelastic:!nsight2021_es-XPOST,10229.31.224:9200/insight-hoststatic/_search?pretty-dsize:
11、1queryrboo:must:term:Bhost_ipB:value*:10.229.31.22411sort:ncreate_time.keywordn:orderB:descBcurl-HContent-Type:application/jsonuserelastic:lnsight2021_es-XPOST(10.229.31.224:9200/insight-hostdynamic/_search?pretty-dsize:1queryboo:must:termfipvalue10.229.31.224,sort:createtime.keyword-order/desc-1 .若
12、es节点在机es进S日志($HOME/bigdata/elasticsearch/logs/es-insight.log),三J三命令:esdbmoni-stop;esdbmoni-start2 .若esWS为red,SiS异常索引CUrl-USerelastic:lnsight2021_eshttp:/$ip:9200/_cat/indicesgrepred,并将mi除ClllI-USerelastic:InSight202LeS-XDELETEhttp:$ip:9200/异常亲引;3 .若es查询数据显示时间不为最新,或者没有数据,或者报错没有索引,查看Iogstash进程及日志($HoM
13、E/bigdata/IOgStaSh/logs/logstash-plainOg)咖ataintegration进程及日志($HOME/bigdata/dataintegration/logs/dataintegration.log)日志常见异inElaStiCSearChClusterBlockExceptionblockedby:FORBIDDEN/12/indexread-only/allowdelete(api),表明磁盘空间超过阈值导致es被设置为只读,需要清理磁盘并口中一台机器执行CUrl-USerelastic:InSight202LeS-XPUT-HContent-Type:a
14、pplicationjsonhttp:/$ip:9200/_all/_settings-dindex.blocks.read_only_allow_deleteSiSRDB表SRDBSi旬goldendbjnsighthOStinfo表若goldendbinsighthOStinfO表中问题,SSWinsightServer($HOME/insightServer/insight-0.0.1-SNAPSHOT/logs/insightlogj关键字getHostlnfoFromDiThenllpdateRdb)Odataintegration($HOME/bigdata/dataintegra
15、tion/logs/dataintegration.log)itOg与页面的关系:SPS三-节点-14g:processdynamic.log资源管理-主机列表-性能:hostdynamic.bgitOg与页面的关系:祖PSa-节点-性能:processdynamicjog资3-主tfUJ表-性眼KostdynamiclogQ:A:机三i咪自host_info虱表中数据通过定时任务从insightJnStaILinf。以及OmmfiS09gdb_devicJinf0、gdb_CityinStalLbaSiCS同步Q:主机列表无i三常查司A:查看insightserve旧志报连接ZkW.连接被对
16、方重设”.看看Zk日志报maxis.insightserver代码问题,连接ZWS耒正婢放.61202P1版本修复(T3版本光大行方主动再主机列表相关揍口仍会出现该问题,后已修复).IffiB懈助法:BJginsightServerQ:主机列表数据全部为N/AA:碘为61202P1版本,SsinSightSerVer日志报错processrecordeerror!.Forinputstring:per.,Igm码SenSightAgent初日树OStStatiC.lOg中CPUJ)MCPUqre5为-Per-.SB为SlJM8Xbug,帕中响SCPUISed-n7pawk-FpcintS2获稼
17、pu3.为SStSgarm瓢,导到的是perInSight整源管理界面展示异常Q:主机列表数据全部为N/A:null,IogstashBJS11p:Iogstashdbmoni-StopJogstashdbmoni-startdataintegratioB:dataintegrationdbmoni-Stopjdataintegrationdbmoni-start从6.1.02.0遍本刑缱耍dataintegration那维绚nsightServer,由InSightSerVe嘴甥酹入RDB表Icreatetime.keywordorder!desc从6.1.02.02版初始附够Iataint
18、egration浦瞳绐InSightSerVer,由InSightSerVer檄S据写入RDB表A:现场为6120施本,insightserver直接i费lfka效据存入rdb羲irightServerBgBootstrapbrokerxa:9092.disconneted,港费kafka失败;而且报以下内容,说明kafka没消费出甥8.查询kdb:selectParam_VaIUefromzxinsys.portal_syspardmwhereparam_name=kafkaAuthFlaggroupbyparam-name;结果j0,应iSkafkal,ASWSiS有去JS.手改kafka
19、SJIRSLHtaticcac2O22-12-HlS:M:St417Se(ftAMThratHostx11foak.BOurctAuthxntercQ:主机列翱嘘全部为N/AA:现场为6120遍本.EsightServer直接消费kafk诩OH存入rdb表.InsightserverHffiJgBootstrapbrokerxxx:9092.disconnected,满赛kafka失败:而且报以下内容,说明kafl满3出数J8.Si三)rdb:selectparamvaluefromzxinsys.portal_sysparamwhereparamname=,kafkaAuthFlag,gro
20、upbyparamname;应该fiW没有改kafka30HS恢复.alatatatataxacatatatQ:主机列表页面异常A:服务SB空码不一致,SfiSTnodeinfo.txtlgoldendbinsightinsightinstalliMo中hostip式错俣,需修改insightinstallinfo,hosti11fo,代码已修改Q:主机列表显示有几台机1处于离娃状态IGMo福耳运行中Ir双加主药口A:检杳下离线的机8/0在线的机器是否属于同一个服铮S,目前insight主机例坏支持一个网卡两个IPM.MRjBW工聆一划.HGflLJIIUUejIIIUalAllyH_lllb
21、l.Clll_IIIIV%IIUl-IIIIU3(lTVol90审以Q:主阻国团B台机器处于离线状忑A:检查下离线的机8S和在线的机器是否属于同一个服务鼠目前insight主机牺不支持一个网卡两个IPQ:主帼!表显示有一台机给处于离线状态A:现场nf*圭戮点卡住Q:管理节点切检回本地后主侧!表显示本地机88高线A:zk无alive节点,估计跟削一天ZkW没出主有关,WJSinsightAgentI?决BTSzkJfWd6y三,怖k/agentJnSight/异常ipSSS4lS三aiveQ:主部分naft于A:host_USed_dir表缺少一台机器,原因未知.可通过卿8选择拄载点解决Q:主机
22、列表部分机81无法JS择挂载点导致状态为初始化A:SSinsightAgen旧志报GetHOStName:获取GetHoStName失败,服务器不支持hostname查询Q:主机列表报错获取主执列表信息失败,总更页面报信resourceOverViewfailedA:定位检查Zk节点时无agentJrKight节点,原因为Tl安装的时候部分主机只进行了纳管,但是没装任何组件,所以只在insightJnStalLinfO表有助g.omm9gdb-devicejnfo5tg.而insightJnStaLinf诲没有room_id和City一id,造成hostjnfo三从insightjnstall
23、jnfo表和insight_instaH_info表同步效据的时候部分主机缺少了COOmJ蜘cftyjd.修夏翩卜充h。Stjnfo表中缺失的room_idftkity_id,然后在gdb_CityinStaILbaSiCS表补充缺少的机器ip.该问题已在611版本修震Q:主机列表存在某机H没有CPU信息A:insightServefBgetavgcpufailed,IRSjliK殳有Sifea确令ltH空间公约GoIdenDBFAQ.INSKSHTfpSHFAQInSight外场常见问题FAQ+新建,卿S,裤发口全屏修复秀补充hostjnfo表中缺失的room_icttOcity_id,然后
24、在gdb_cityinstall_basics表扑旃少的机器ip.该问题已在611版本修襄Q:主机为表存在票机SS没有CPU信息A:InsightServerBiSIBgetavgcpufailed,蜩为机iS三5sar4Q:主机列表存在某机器没有ISe,S#该t三配置中3个采集粲率都为空,且潜诟仍没有(数据记录在Zk上,ZkjZ也为空)A:原因耒知.修期法:删除host。表中相应信息后会自动同步删除ZkJZ的信号,等host_infoW信息同步后又自动同步Zk的信息,然后恢震Q:主U表?SMl器没有信息,insight-log4MSt8GETrequestfor,http710.229.42
25、178:8021/api/insightAgent/getHostRe$ources:R.SocketTimeoutException:ReadtimedoutA:挂载导致df卡任;/者Zk中是否有该ip信息:Is/agentJnSight查看无对应的ip,到对血的IP上df-h杳看卡住,UmOUnt-廨除对SZ的挂我Q:主机列表不履示某个ipA:检有下表中是否包含这个ipgoldendbJnsighthostJnfogoldenft)JnsightinsightjnstallJnfogoldendb_omm.gdb_devicejnfogoldendb_omm.gdb_cityinstal
26、l_bd$ics检查当削用户是否有这个ip的权限Q:主机列表数据与用三靠覆A:SerVerm连ZkS查节点耗时现场机间32181耒开通Q:主机残表数据宣嗣四懵Ig舟或后6)话行中Ial双击西庭石口+新建/编设Q场发口全屏空I淞约GoIdenDBFAQINSlGHT问陋FAQInsight外场常JQ问HFAQQ:主机列表数据查i铜由展A:SefVertg连Zk后查节点物,现场机81间32181未开通Q:A:手动查询异地一数据时较慢,异地es存在一定的网络延返已优化代码改为一次查询Q主机外表主机名称CPU被数、接载点容)都为NA.es日志报镣insight-hostdy11amic0failedt
27、oexecutebulkitem(index)insight-hoststaticj.Limitoftotalfields10inindexinsight-hostdynamichasbeenexceededa.新熔机asa港较好.es中预设字段数程1 .中Q-i11sightbigdatadataintegrationinsight-hoststaticjson,Ssettings,Tl)11-frindex.mapping.total_fields.limif:5000,2 .先停所有di,备份并修改json,最后启动所有di,第二天就生效了.3 .当天的可以手动改一下:curl-Uela
28、stic:InSight202LeS-XPUThttp:/$ip200/insight-ho$tstatic-2024.0726/_settings-HContent-Typeapplicationson-dindex.mapping.total,fields.limit50)Q主机列表中主机名称、CpU核效、接载点空间都为NA,e汨志报failedtoexecutebulkitem(index).objectmappingfornat_JardJ】triedtoparsefieldnet,card_1asobjectbutfoundaconcretevalue.小1口后日运行中W击南总主苔口
29、A.直看对应日志/in$ight/insightAgent/agnt/host_shel/it_IOgZhoStStatidOg中net_Card为空,原因为脚本中执行Kpdgrep-ieth杳到结果包含口,而脚本PUbIiCMethogdb_cityinstall_basics同步Q:主机列表无法正常查询A:查看InsightServer日志报连接zk时连接被对方重设”,查看zk日志报maxis.oMsightServer代码问题,连接Zk后未正常释放,61202Pl版本修复(代版本光大行方主动调主机列表相关接口仍会出现该问题,后已修复)。临时解决方法:重启InsightServerQ:主机
30、列表数据全部为N/AA:现场为61202P1版本,查看InsightServer日志报错“processrecordeerror!.Forinputstring:per./,根据代码查看insightAgent采集日志hoststatic.log中cpu_0的cpu_cores为per。原因为采集脚本bug,脚本中执行Iscpused-n7p|awk-Fprint$2获得CPIl核数,但现场环境为英文的arm系统,查询得到的是perInsight资源管理界面展示异常Q:主机列表数据全部为N/AA:现场为61202版本,InsightServer直接消费kafka数据存入rdb表。Insight
31、Server日志报Bootstrapbrokerxxx:9092.disconnected,消费kafka失败;而且报以下内容,说明kafka没消费出数据。查询rdb:selectparam_valuefromzxinsys.portal_sysparamwhereparam_name=kafkaAuthFlag,groupbyParam_name;结果为0,应该去掉kafka鉴权,而现场没有去掉。手动修改kafka鉴权点恢复。121.1O2.19,15-Cata)t21.102.88二updatHotxnfoTMk.jvhrad-10UpdateHoitXnfoTMk.Jav,0sourcA
32、uthlntrcpt2022-12-1315:30:56.41656INFOftiadibad-10212.1315:30:56,41656INFOt忙-2022-12-1315:30:5631756ERRORTrtad10RsourcAuthlntrcptcom.al1baba.dru1d.sql.parser.ParserExceptIon:syntaxerrorlerrorco三.allbaba.dru1dsql.parser.SQLParstr.pr1mtrror(SqL“atco.alibaba.dru1d.sql.parsr.SQLParsr.accept(SQLPirseratc
33、M.al1baba.druid.sql.d1a1ct.aysql.parser.MysqlseltctPat3a1ibabadru1d.sql.d1alct.nysql.parsr.MysqlStatmatcob.a11baba.dr1d.sqlparser.SQLStateMntParstreparsStatcoa.al1baba.dru1dsqlparser.SQLStattmtmParser.parsstatcom.t.Insight.Inttrcept-KtsourctAuthinttrcept-ConcatSatco三ne.1nsiht.Imercept-ResourctAuthinterctpt-Intirceatorgapache.I6atis.plu1n.Plu9lnInvoke(Plugin.java:ei)atco.sun.proxy.SProxylBS.preparfunknownsource)atorgapache,ibatis.executor4SlnptEx