转载

每日一博 | Erlang 之 entop 使用问题

工欲善其事,必先利其器。排查 erlang 系统问题时,肯定希望能有一个像 Unix top 一样的工具,entop 就是这么个东东。 ---------- 我是三月份发版本天天加班的分隔线 ----------- (以下内容翻译自 entop 的 README.md 文件) entop 如同 Unix 中 top 一样的 Erlang 节点信息查看工具。 简介

entop 是用来展示远端 Erlang 节点运行信息的工具,其信息显示的方式类似于 Unix 中的 top 命令。

若要保证 entop 的正常运行,在 pre-R15 环境下,需要使用 cecho 0.3.0 版本;在 R15 或更高版本的环境下需要 cecho 0.4.0 版本。

      cecho 的 github 地址: 这里

编译 清理和编译可以分别运行如下命令
./rebar clean ./rebar compile
注意:如果你遇到和 cecho 依赖相关的问题,可以手动创建符号链接到 deps/ 下的 cecho (如果你的 cecho 放在其他目录也可以进行类似操作),或者运行 ./rebar get-deps 以下载最新版本。当通过 rebar 获取到最新版本后,不要忘记重新编译整个应用。 用法       若想成功运行 entop ,首先要确保 Erlang 已经安装到你的系统之中,并且 cecho 库所在路径被 Erlang code path 所包含。 项目中默认提供的启动脚本(entop)假定了其在 entop 应用根目录下被执行,如果这与你的实际情况不符,请自行调整脚本的相应路径,或者直接确保 entop 的 ebin/ 目录包含在 Erlang code path 之中。详情请参考启动脚本具体内容。
Usage: ./entop <TARGETNODE> [-name <NAME>|-sname <SNAME>] [-setcookie <COOKIE>]
entop 的运行示例
> ./entop rmq_yoyo@YOYO -sname entop -setcookie yoyo
用户接口 entop 的接口允许用户定制化,所以本节描述的接口均为“内置”接口。 表头信息 第一行 主要展示了节点的静态信息,例如节点名、操作系统类型、指定的 erl flag 、当前所运行的 erlang 版本信息。 第二行 展示了(目标节点所在机器的)本地时间、目标节点已持续运行的时间(格式为 Days:Hours:Minutes:Seconds)、运行 entop 的节点与目标节点之间的网络延迟情况(即 net_adm:ping() 成功交互所需花费的时间) 第三行 展示了系统中每个进程的具体信息、进程的总数、运行队列中的进程数量(由调度器进行调度的待运行进程数量)、reductions per interval (RpI) 值(自从上一次 called the node 后系统已经 reduction 的次数)、以及每个进程占用的内存量。 第四行 展示了系统内存使用量、atom 内存占用量(当前使用量/总体分配量)、binary 内存占用量、code 内存占用量,以及 ets 内存占用量。 第五行 为空白,目前作为预留。 第六行 为和行内容展示相关的信息,例如信息获取时间间隔、信息展示排序方式,以及获取相关信息所耗费的时间。

在 entop 运行状态下可以使用的控制命令

[1-N] : 根据指定列编号进行输出内容排序。第一列编号为 1 ,其他列按顺序增加。 r : 在升序排序和降序排序之间进行切换。 q : 从 entop 中退出返回 shell 命令行。 Ctrl-C : 等价于 'q' 命令。 '<'  和  '>' : 将当前排序列左移或者右移(注意:次数为小于和大于号,非箭头) ---------- 我是三月份发版本天天加班的分隔线 -----------       按照 README.md 中的说明 “entop 的正常运行在 pre-R15 情况下需要 cecho 0.3.0 的支持,在 R15 或更高版本的情况下需要 cecho 0.4.0 的支持” 做了如下配置变更。
[root@Betty entop]# vi rebar.config   {erl_opts, [fail_on_warning, debug_info]}. {deps_dir, "deps"}. {clean_files, ["ebin/*.beam"]}. {deps, [{cecho, ".*", {git, "https://github.com/mazenharake/cecho.git", {tag, "0.4.0"}}}]}.         -- 这里由原来的 "HEAD" 变更为 {tag, "0.4.0"} {escript_name, "rebar_tmp"}.
编译
[root@Betty entop]# ./rebar compile ==> cecho (compile) Compiled src/cecho.erl Compiled src/cecho_srv.erl Compiled src/cecho_example.erl Compiling c_src/cecho.c ==> entop (compile) Compiled src/entop_collector.erl Compiled src/entop_net.erl Compiled src/entop.erl Compiled src/entop_format.erl Compiled src/entop_view.erl [root@Betty entop]#
通过 entop 连接到 RabbitMQ 进程进行查看
[root@Betty entop]# ./entop rmq_betty@Betty -sname entop  =INFO REPORT==== 9-Mar-2016::13:58:43 ===     application: cecho     exited: {{driver_error,"undefined symbol: scrollok"},        -- 问题出在这里              {cecho,start,[normal,[]]}}     type: temporary   ^C^C^C^C^C        -- Ctrl + c 也停止不了  ^Z [1]+  Stopped                 ./entop rmq_betty@Betty -sname entop [root@Betty entop]#
通过挂起回到前台,查看 entop 相关进程运行情况,并强杀
[root@Betty entop]# ps aux|grep entop root     31769  0.0  0.0 106092  1236 pts/2    T    13:58   0:00 /bin/bash ./entop rmq_betty@Betty -sname entop root     31775  0.0  0.8 748760 33344 pts/2    Tl   13:58   0:00 /usr/local/lib/erlang/erts-6.0/bin/beam.smp -A 20 -Bc -- -root /usr/local/lib/erlang -progname erl -- -home /root -- -noshell -noinput -hidden -pa ./ebin -pa ./deps/cecho/ebin -eval entop:start('rmq_betty@Betty') -sname entop root     31919  0.0  0.0 103252   856 pts/2    S+   14:04   0:00 grep entop [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]# kill -9 31769 31775
可以看到,按照上面的操作,我们失败了,排查错误的原因,我 查看了 cecho 的代码。 在 cecho_srv.erl 中
init(no_args) ->     process_flag(trap_exit, true),     case load_driver() of         ok ->             Port = erlang:open_port({spawn, "cecho"}, [binary]),             ok = do_call(Port, ?INITSCR),             ok = do_call(Port, ?WERASE, 0),             ok = do_call(Port, ?REFRESH),             {ok, #state{ port = Port }};         {error, ErrorCode} ->             exit({driver_error, erl_ddll:format_error(ErrorCode)})      -- 可以看出,上面的错误信息来自这里     end.  ...  load_driver() ->     Dir = case code:priv_dir(cecho) of               {error, bad_name} ->                   filename:dirname(code:which(?MODULE)) ++ "/../priv";               D ->                   D           end,     erl_ddll:load(Dir, "cecho").     --  其他代码都不会出错,只能是这里
查看手册,针对 erl_ddll/load/2 有如下说明

---------- 我是三月份发版本天天加班的分隔线 -----------

(以下内容翻译自 kernel-2.15.2)

load(Path, Name) -> ok | {error, ErrorDesc}

Types: Path = path() Name = driver()

ErrorDesc = term()

加载并链接名为 Name 的动态 driver 。Path 为包含该 driver 的目录。Name 指定的对象必须为共享对象或动态链接库。 若两个 driver 具有不同的 Path 参数(即在不同路径下),则无法通过相同的 Name 进行加载。 Name 的值对应 Path 目录下的动态加载对象文件,但是去除了扩展名(例如,移除了 .so 后缀)。 在 driver 初始化函数中指定的 driver 名字方式,在很大程度上,与指定对应了 .beam 文件的 erlang 模块名一样。 如果对 driver 执行了卸载动作,但由于 port 仍旧处于 open 状态,故此 driver 实际上仍旧存在,此时若调用 load/2 ,则会停止针对 driver 的卸载行为,使得该 driver 得以保留(只要 Path 没有发生过变更),并会返回 ok 。 如果确实打算重新加载对象代码(driver),则可以使用 reload/2 或者底层的接口 try_load/3 进行操作。 针对不同的场景下的加载/卸载行为描述请参考具体说明。 如果超过一个进程想要使用相同的 Path 加载一个已经加载过的 driver ,或者如果相同的进程想要加载同一个 driver 多次,该函数调用都会返回 ok 。 模拟器会跟踪 load/2 被调用的次数,以便在相同数量的 unload/2 被调用后才真正卸载该 driver 。 如此,才能保证一个应用安全的加载一个 driver ,无论该 driver 是在多 erlang 进程间共享,还是在多 erlang 应用间共享。同样能保证 driver 的安全卸载,而不会对系统的其他部分产生影响。 以相同的 Name 但不同的 Path 加载多个 driver 是不允许的; 注意: 需要注意的是,Path 参数的值是按字面量解析的,所以针对统一 driver 的多次加载都需要指定具有相同字面量的 Path 字符串,即使不同的路径表达均指向相同的文件系统目录也不行(比如使用相对路径或链接的情况)。 函数执行成功后返回 ok ;函数执行失败后返回 {error, ErrorDesc} ,其中 ErrorDesc 为 opaque term ,可以通过 format_error/1 翻译成人可读的格式。 若希望对错误处理有更多控制,则需要使用 try_load/3 接口。 该函数会在入口参数不符合要求的情况下,抛出 badarg 异常。 ---------- 我是三月份发版本天天加班的分隔线 ----------- 根据上述信息,查看源码目录 priv 下,会在编译 cecho 后生成的 cecho.so 文件
[root@Betty priv]# ll 总用量 132 -rwxr-xr-x 1 root root 135113 3月   9 13:57 cecho.so [root@Betty priv]# nm -C cecho.so |grep scrollok 00000000000042ed T do_scrollok                  U scrollok [root@Betty priv]#
我擦,果然其中没有定义 scrollok 符号……Erlang 果不欺我~~~ ok ,变回原始配置再再做一次挑战...
[root@Betty entop]# vi rebar.config   {erl_opts, [fail_on_warning, debug_info]}. {deps_dir, "deps"}. {clean_files, ["ebin/*.beam"]}. %%{deps, [{cecho, ".*", {git, "https://github.com/mazenharake/cecho.git", {tag, "0.4.0"}}}]}. {deps, [{cecho, ".*", {git, "https://github.com/mazenharake/cecho.git", "HEAD"}}]}. {escript_name, "rebar_tmp"}.   [root@Betty entop]# ll 总用量 141 drwxr-xr-x 1 root root      0 3月   9 13:56 deps drwxr-xr-x 1 root root   4096 3月   9 13:57 ebin -rwxr-xr-x 1 root root   1723 3月   9 10:16 entop -rwxr-xr-x 1 root root  10175 3月   9 10:16 LICENSE -rwxr-xr-x 1 root root    132 3月   9 10:16 NOTICE -rwxr-xr-x 1 root root   3410 3月   9 13:53 README.md -rwxr-xr-x 1 root root 114109 3月   9 10:16 rebar -rwxr-xr-x 1 root root    302 3月   9 14:48 rebar.config drwxr-xr-x 1 root root   4096 3月   9 10:18 src [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]# rm -rf deps/ [root@Betty entop]# ll 总用量 141 drwxr-xr-x 1 root root   4096 3月   9 13:57 ebin -rwxr-xr-x 1 root root   1723 3月   9 10:16 entop -rwxr-xr-x 1 root root  10175 3月   9 10:16 LICENSE -rwxr-xr-x 1 root root    132 3月   9 10:16 NOTICE -rwxr-xr-x 1 root root   3410 3月   9 13:53 README.md -rwxr-xr-x 1 root root 114109 3月   9 10:16 rebar -rwxr-xr-x 1 root root    302 3月   9 14:48 rebar.config drwxr-xr-x 1 root root   4096 3月   9 10:18 src [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]# ./rebar get-deps ==> entop (get-deps) Pulling cecho from {git,"https://github.com/mazenharake/cecho.git","HEAD"} 正克隆到 'cecho'... ==> cecho (get-deps) [root@Betty entop]#  [root@Betty entop]# ./rebar clean ==> cecho (clean) ==> entop (clean) [root@Betty entop]# [root@Betty entop]# ./rebar compile ==> cecho (compile) Compiled src/cecho.erl Compiled src/cecho_srv.erl Compiled src/cecho_example.erl Compiling c_src/cecho.c ==> entop (compile) Compiled src/entop_collector.erl Compiled src/entop_net.erl Compiled src/entop.erl Compiled src/entop_format.erl Compiled src/entop_view.erl [root@Betty entop]#  [root@Betty entop]# ll deps/cecho/priv/ 总用量 132 -rwxr-xr-x 1 root root 135145 3月   9 14:51 cecho.so [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]# nm -C deps/cecho/priv/cecho.so |grep scrollok 00000000000042fd T do_scrollok                  U scrollok [root@Betty entop]#  [root@Betty entop]# ./entop  Usage: ./entop <TARGETNODE> [-name <NAME>|-sname <SNAME>] [-setcookie <COOKIE>] [root@Betty entop]# ./entop rmq_betty@Betty -sname entop {error_logger,{{2016,3,9},{14,53,0}},"Protocol: ~tp: the name entop@Betty seems to be in use by another Erlang node",["inet_tcp"]} {error_logger,{{2016,3,9},{14,53,0}},crash_report,[[{initial_call,{net_kernel,init,['Argument__1']}},{pid,<0.21.0>},{registered_name,[]},{error_info,{exit,{error,badarg},[{gen_server,init_it,6,[{file,"gen_server.erl"},{line,322}]},{proc_lib,init_p_do_apply,3,[{file,"proc_lib.erl"},{line,239}]}]}},{ancestors,[net_sup,kernel_sup,<0.10.0>]},{messages,[]},{links,[#Port<0.190>,<0.18.0>]},{dictionary,[{longnames,false}]},{trap_exit,true},{status,running},{heap_size,376},{stack_size,27},{reductions,735}],[]]} {error_logger,{{2016,3,9},{14,53,0}},supervisor_report,[{supervisor,{local,net_sup}},{errorContext,start_error},{reason,{'EXIT',nodistribution}},{offender,[{pid,undefined},{name,net_kernel},{mfargs,{net_kernel,start_link,[[entop,shortnames]]}},{restart_type,permanent},{shutdown,2000},{child_type,worker}]}]} {error_logger,{{2016,3,9},{14,53,0}},supervisor_report,[{supervisor,{local,kernel_sup}},{errorContext,start_error},{reason,{shutdown,{failed_to_start_child,net_kernel,{'EXIT',nodistribution}}}},{offender,[{pid,undefined},{name,net_sup},{mfargs,{erl_distribution,start_link,[]}},{restart_type,permanent},{shutdown,infinity},{child_type,supervisor}]}]} {error_logger,{{2016,3,9},{14,53,0}},crash_report,[[{initial_call,{application_master,init,['Argument__1','Argument__2','Argument__3','Argument__4']}},{pid,<0.9.0>},{registered_name,[]},{error_info,{exit,{{shutdown,{failed_to_start_child,net_sup,{shutdown,{failed_to_start_child,net_kernel,{'EXIT',nodistribution}}}}},{kernel,start,[normal,[]]}},[{application_master,init,4,[{file,"application_master.erl"},{line,133}]},{proc_lib,init_p_do_apply,3,[{file,"proc_lib.erl"},{line,239}]}]}},{ancestors,[<0.8.0>]},{messages,[{'EXIT',<0.10.0>,normal}]},{links,[<0.8.0>,<0.7.0>]},{dictionary,[]},{trap_exit,true},{status,running},{heap_size,376},{stack_size,27},{reductions,117}],[]]} {error_logger,{{2016,3,9},{14,53,0}},std_info,[{application,kernel},{exited,{{shutdown,{failed_to_start_child,net_sup,{shutdown,{failed_to_start_child,net_kernel,{'EXIT',nodistribution}}}}},{kernel,start,[normal,[]]}}},{type,permanent}]} {"Kernel pid terminated",application_controller,"{application_start_failure,kernel,{{shutdown,{failed_to_start_child,net_sup,{shutdown,{failed_to_start_child,net_kernel,{'EXIT',nodistribution}}}}},{kernel,start,[normal,[]]}}}"}  Crash dump was written to: erl_crash.dump Kernel pid terminated (application_controller) ({application_start_failure,kernel,{{shutdown,{failed_to_start_child,net_sup,{shutdown,{failed_to_start_child,net_kernel,{'EXIT',nodistribution}}}}},{k Something wrong. Code: 1 [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]# ps aux|grep entop root       463  0.0  0.0 103252   840 pts/2    S+   14:53   0:00 grep entop root     32043  0.0  0.0 106092  1236 pts/2    T    14:06   0:00 /bin/bash ./entop rmq_betty@Betty -sname entop root     32049  0.0  0.9 748760 34824 pts/2    Tl   14:06   0:00 /usr/local/lib/erlang/erts-6.0/bin/beam.smp -A 20 -Bc -- -root /usr/local/lib/erlang -progname erl -- -home /root -- -noshell -noinput -hidden -pa ./ebin -pa ./deps/cecho/ebin -eval entop:start('rmq_betty@Betty') -sname entop [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]# kill -9 32043 32049 [root@Betty entop]#  [1]+  已杀死               ./entop rmq_betty@Betty -sname entop [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]# ps aux|grep entop   root       467  0.0  0.0 103252   844 pts/2    S+   14:53   0:00 grep entop [root@Betty entop]#  [root@Betty entop]#  [root@Betty entop]# ./entop rmq_betty@Betty -sname entop    Node: rmq_betty@Betty (Connected) (17/6.0) unix (linux 2.6.32) CPU:4 SMP +A:30 +K Time: local time 14:53:34, up for 000:22:27:49, 3ms latency, Processes: total 189 (RQ 0) at 124011 RpI using 13860.0k (13892.3k allocated) Interval 1000ms, Sorting on "Reductions" (Descending), Retrieved in 4ms 1170.1k  Pid Registered Name      Reductions   MQueue HSize  SSize  HTot  <0.179.0> vm_memory_monitor    77427487     06772   97382    <0.230.0> background_gc 59304009     0233    7233    <0.282.0> rabbit_mgmt_db 44805986     02586   74184    <0.208.0> rabbit_memory_monito 31871301     04185   74561    <0.243.0> rabbit_mgmt_external 31362904     06772   913544    <0.256.0> rabbit_web_dispatch_ 14034430     010958  921916    <0.182.0> rabbit_disk_monitor  752889602586   94184     <0.25.0> file_server_2        70139900376    9752      <0.3.0> erl_prim_loader42681980987    6987      <0.7.0> application_controll 282319702586   76771    <0.180.0> timer_server         228609901598   91974    <0.276.0> -                    13847170376    13     752    <0.273.0> -                    13844820376    13     752    <0.275.0> -                    13842510376    13     752    <0.266.0> -                    13838640376    13     752    <0.265.0> -                    13837490376    13     752    <0.268.0> -                    13837340376    13     752    <0.262.0> -                    13836540376    13     752    <0.261.0> -                    13836280376    13     752    <0.267.0> -                    13836160376    13     752    <0.264.0> -                    13835610376    13     752    <0.263.0> -                    13834900376    13     752    <0.270.0> -                    13834830376    13     752    <0.271.0> -                    13828050376    13     752    <0.272.0> -                    13825730376    13     752    <0.269.0> -                    13824750376    13     752    <0.274.0> -                    13823870376    13     752      <0.0.0> init                 12066000987    2987    <0.184.0> os_cmd_port_creator  8509590610    1986    <0.148.0> file_handle_cache    8355150610    7986     <0.12.0> rex                  8075230610    9986     <0.26.0> code_server          804759017731  317731    <0.173.0> rabbit_event         76952902586   82962    <0.177.0> rabbit_alarm         3456710376    8752     <0.66.0> mnesia_recover2134950233    9233    <0.187.0> rabbit_node_monitor  1169900376    9376     <0.21.0> net_kernel           99217        0376    9376    <0.145.0> rabbit               77518        0233    5233   <0.8965.0> -                    68682        0233    11     233     <0.11.0> kernel_sup           67885        0376    9376 [root@Betty entop]# ogger         55368        0610    8610 [root@Betty entop]#
整个过程下来,没发现有啥具体区别啊!!如何破?!       在没有其他思路的请款下,就让我们简单粗暴一点吧,直接拉下来 master 和 0.4.0 两个版本的代码进行比较~~ 结果很明显,只有 rebar.config 中的不同才是问题关键。
{port_envs, [{"LDFLAGS", "$LDFLAGS -lncurses"}]}.
这条配置信息从字面上就可以理解,LDFLAGS 是用来设置 link 选项的,所以上面是指定了对 ncurses 库的链接依赖。 回头再看依赖 cecho.so 的库依赖关系(之前少看了该信息,5555...)
[root@Betty priv]# ldd cecho.so          linux-vdso.so.1 =>  (0x00007fff10eee000)         libncurses.so.5 => /lib64/libncurses.so.5 (0x00007fa6c1aef000)         libc.so.6 => /lib64/libc.so.6 (0x00007fa6c175b000)         libdl.so.2 => /lib64/libdl.so.2 (0x00007fa6c1556000)         libtinfo.so.5 => /lib64/libtinfo.so.5 (0x00007fa6c1335000)         /lib64/ld-linux-x86-64.so.2 (0x000000388c400000) [root@Betty priv]#
而在引用 0.4.0 版本的 cecho 时,信息如下
[root@Betty entop]# ldd deps/cecho/priv/cecho.so          linux-vdso.so.1 =>  (0x00007fff8f0c5000)         libc.so.6 => /lib64/libc.so.6 (0x00007f4fb65bd000)         /lib64/ld-linux-x86-64.so.2 (0x000000388c400000) [root@Betty entop]#
果然存在差别!这也就解释了为何 scrollok 符号在两次结果中虽然都是 U 状态,但基于 master 的编译却可用的原因,因为 scrollok 符号在 libncurses.so.5 中~~
[root@Betty entop]# nm -D /lib64/libncurses.so.5.7 | grep scrollok           000000389940a9b0 T is_scrollok 0000003899412980 T scrollok [root@Betty entop]#

手动在 0.4.0 版本的 cecho 的 rebar.config 文件中添加 {port_envs, [{"LDFLAGS", "$LDFLAGS -lncurses"}]}. 后,重新编译运行,一切正常~~

原文  http://my.oschina.net/moooofly/blog/633800?fromerr=Nw35pJSa
正文到此结束
Loading...