万丈高楼平地起,万事只有打好基础,才能有所成就,学习亦是一样。本篇开始介绍Git基础工作理论,学完本篇,我们应该知道什么是Git,Git是如何工作的,以及Git与SVN等分布式版本控制系统的主要区别。
一言以蔽之,Git是一个分布式版本控制系统(DVCS),大家都知道,那它与其他的集中式版本控制系统,如SVN等有什么差别呢?这就要从Git的特性开始介绍,介绍完,就清楚了Git是怎么工作的,及他与SVN等的差别。
Git与SVN最大的差别在于它们如何处理数据:
每次提交或保存当前项目状态,Git都会生成一个当前所有文件状态的快照,并存储一个对该快照的引用;而且文件没有发生变化时,Git不会重复保存快照,而只是链接到之前的标识文件。
也许,你可以把Git想象成一个小型文件系统,而不仅仅是一个版本控制系统,这有助于你比较Git与其他版本控制系统。
在传统的VCS中,大多数操作都依赖于网络,特别在网络延迟高时,那种痛苦感,相信你是不想有第二次体验的;而Git的大部分操作都是基于本地文件和资源的,而不需要通过网络从其他计算机获取信息,Git将整个项目历史保存在本地磁盘,使得大多数操作似乎没有延迟感。
比如,需要查看项目历史记录时,Git不再需要从服务器获取,可以直接从本地磁盘读取,操作很快;又或者我们需要查看某一文件在两个不同时间点的区别,Git可以查询该文件不同时间点的状态,并计算出变更,而不需要从服务器获取不同版本文件或者请求服务器计算它们点变更。即使与服务器的连接断开甚至网络断线,也不会受太大限制,我们可以在本地对文件进行编辑,保存,然后等连接正常时再上传,而在其他的版本控制系统,这些几乎不可能。
Git在存储任何数据前都会先计算并存储其校验和,随后通过该校验和,而不是文件名访问存储数据,这意味着Git可以探测到任何文件或目录的变更,即使数据发生丢失,Git也能知道。
Git生成校验和的机制叫做SHA-1哈希,为什么通过该校验和可以访问到存储数据呢?因为它是基于文件内容或目录结构计算得出一个由40个十六进制字符组成的字符串,比如:24b9da6552252987aa493b52f8696cd6d3b00373。
对数据进行版本管理,无非就是对数据进行增删改并记录,在传统的VCS中,我们没有提交至服务器的任何新增文件或变更,都很容易就可以被错误删除或再次修改,这时我们是无法找回之前需要提交的内容的;然而在Git中,只要我们在本地提交了项目当前的快照,几乎不会出现数据丢失的情况,而且无论是否提交数据到服务器我们都可以随时找回之前保存过的内容或变更,即使在中途某次操作误删除或误修改,因为Git中的几乎所有操作,都是在向Git数据库添加数据或变更记录。
介绍到现在,终于进入本篇最重点的内容:Git的三种状态。
在Git,文件可能有三种状态:已提交(committed),已修改(modified),暂存(staged):
这三种状态分别对应Git项目的三大区块:Git目录,工作目录,暂存区。
我们使用Git时的一次基本工作流程如下:
学完本篇,我们需要懂得什么是Git,Git与传统集中式版本控制系统的主要区别,及Git的基本工作流程,下一篇将详细介绍Git的使用与指令。