转载

Node.js 的模块系统

Node 的模块系统是借鉴 CommonJS 的 Modules 规范实现的，因此，下面我们需要先了解 CommonJS 的 Modules 规范。

CommonJS 的 Modules 规范

CommonJS 对模块的定义非常简单，主要分为模块引用、模块定义和模块标识三个部分。

模块引用 - require() 方法
模块定义 - module.exports 对象
模块标识 - 传递给 require() 方法的参数

通过 CommonJS 的这套导出和引入机制，用户不必再考虑变量污染的问题。

Node 的模块实现

Node 中的模块分为两类：

Node 提供的模块 - 核心模块
用户编写的模块 - 文件模块

核心模块：

在 Node 源代码的编译过程中，编译进了二进制文件
在 Node 进程启动时，部分核心模块被直接加载近内存

文件模块：

运行时动态加载，需要完整的路径分析、文件定位、编译执行过程

Node 缓存

Node 对引入过的模块都会进行缓存，Node 缓存的是编译执行之后的对象，require() 方法对相同模块的加载一律采用缓存优先的方式，这是第一优先级。

路径分析和文件定位

模块标识符分析

模块标识符，就是传入 require() 方法的参数，对于不同的模块标识符，查找和定位的方式是不一样的。

模块标识在 Node 中主要分为以下几类：

核心模块（http、fs、path .etc），加载优先级仅次于缓存加载，其加载过程最快
. 或 .. 开头的相对路径，都会被当做文件模块处理， require() 方法会将路径转换为真实路径，并以真实的路径作为索引，将编译执行后的结果存放到缓存中
/ 开始的绝对路径，同上
非路径开始的文件模块，它不是核心模块，但是又不写成路径的形式，这类的查找是最费时的，详细的分析在下文

模块路径

在了解自定义模块的查找方式之前，需要先知道 模块路径 这个概念。

模块路径 是 Node 在定位文件模块的具体文件是制定的查找策略，具体表现为一个路径组成的数组。

模块路径 的生成规则如下：

当前目录下的 node_modules 目录
父目录下的 node_modules 目录
父目录的父目录下的 node_modules 目录
一直到系统的根目录下的 node_modules 目录

在加载的过程中，Node 会逐个尝试模块路径中的路径，知道找到目标文件为止

文件定位

Node 在定位好文件之后，还需要做一些事情，包括：扩展名的分析以及目录、包的处理

扩展名的分析：如果标识符不包含扩展名，Node 会按 .js .json .node 的次序补充扩展名，依次尝试

目录、包的处理：如果通过标识符没找到对应文件，但是找到了同名的一个目录

首先，Node 会在该目录下查找 package.json 文件，从中取出 main 属性指定的文件名对应
如果 package.json 的 main 属性指定的文件名错误或者是直接没有 package.json 文件，Node 会将 index 作为默认文件名
如果在目录分析的过程中没有定位成功任何的文件，则自定义模块进入下一个模块路径进行搜索，如果路径数组已经遍历完了还没找到目标文件则会抛出一个异常

模块编译

编译和执行是引入文件模块的最后一个阶段，在 Node 中，每个文件都是一个模块，定义如下

function Module(id, parent){
 this.id = id
 this.exports = {}
 this.parent = parent
 if (parent && parent.children) {
 parent,children.push(this)
 }
 this.filename = null
 this.loaded = false
 this.children = []
}

定位到具体的文件后，Node 会新建一个模块对象，然后根据载入路径载入并编译。

载入

不同文件的载入方法是不同的：

.js 文件：通过 fs 模块同步读取模块后编译执行
.node 文件：通过 dlopen() 方法加载最后编译生成的文件
.json 文件：通过 fs 模块同步读取文件后，通过 JSON.parse() 解析返回结果
其余扩展名文件

Module._extensions 会被赋值给 require() 的 extensions 属性，如果想对自定义的扩展名进行特殊的加载，可以通过类似 require.extension['.coffee'] 扩展的方式来实现。

编译

JavaScript 模块的编译

一个正常的 JavaScript 文件会被包装成如下的样子：

(function (exports, require, module, __filename, __dirname){
 // 文件里本来的 js 代码
})

module.exports 对象上的任何方法和属性都可以被外部调用到。

C/C++ 模块的编译

Node 调用

process.dlopen() 方法进行加载和执行。

JSON 文件的编译

Node 利用 fs 模块同步读取 .json 文件，调用 JSON.parse() 方法得到对象然后赋值给 module.exports

每一个编译成功的模块都会将其文件路径作为索引缓存在 Module._chche 对象上。

核心模块

Node 的核心模块在编译成可执行文件的过程中被编译进了二进制文件。核心模块分为 C/C++ 和 JavaScript 编写的两个部分

JavaScript 核心模块的编译过程

第一步：转存为 C/C++ 代码

Node 采用 V8 附带的 js2c.py 工具将所有内置的 JavaScript 代码转换成 C++ 里的数组
在这个过程中，JavaScript 代码以字符串的形式存储在 node 命名空间中，是不可执行的
在启动 Node 进程时，JavaScript 代码直接加载进内存中
在加载的过程中，JavaScript 核心模块经历标识符分析后直接定位到内存中

第二步：编译 JavaScript 核心模块

与文件模块有区别的地方在于：获取源代码的方式（核心模块是从内存中加载的）和缓存（ NativeModule._cache ）执行结果的位置。

C/C++ 核心模块的编译过程

由纯 C/C++ 编写的部分统称为内建模块，因为他它们通常不被用户直接调用。Node 的 buffer、crypto、evals、fs、os 等模块都是内建模块。

… 这个坑先留着

内建模块的导出

Node 在启动时，会生成一个全局变量 process ，并提供 Binding() 方法来协助加载内建模块。

前面提到的 JavaScript 核心文件被转换为 C/C++ 数组存储后，便是通过 process.binding('natives') 取出放置在 NativeModule._source 中的：

NativeModule._source = process.binding('natives')

原文 http://mertensming.github.io/2017/01/08/node-module/

正文到此结束

所属分类：编程技术

本文标签： id parse IO js 遍历 cache git 解析 JavaScript ip 空间 http node 代码同步编译 GitHub 参数 java UI json 目录进程
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流