转载

实现TeX的算法：回首编程技术的过去三十年

Glenn Vanderburg 是LivingSocial的工程主管，在最近的 ClojureConj 会议上，对他使用Clojure实现TeX算法的工作做了很有趣的叙述。在那个过程中，他发现在过去三十年间，编程技术已经发生了非常大的变化。

TeX简史

首先，一些历史可能有助于说明TeX的重要性。Donald Knuth在1982年发布了TeX 1.0，32年后，它仍然代表了计算机排版的先进状态，Glenn说。此外，TeX一直是少数几个提供了源代码的大型项目，人们可以从中学习。

TeX是一部鸿篇巨制：它运行快速、可移植、产出优秀的结果，并且在三十年后它还在广泛使用中，只发现了很少缺陷。

Glenn特别提到，很有趣的是，当Knuth收到他的巨著《计算机编程艺术》的第一页样张，就决定开始编写TeX，因为他发现排版“丑陋得让人失望”。这样，Knuth开始编写程序，使得他的书看起来自己能够接受。当TeX可用之后，因为快速排序而为人所知的 Tony Hoare 建议Knuth发布源代码，那样从此可以为学生所用，那时是1982年，互联网还没有出现，也没有太多源代码示例。这个目标让Knuth开始有了迭代编程的冲动，最终TeX的源代码在1986年公诸于众。直到Linux内核出现之前，它一直是世界上被最广泛阅读的代码，Glenn说。

TeX内部

TeX架构是一个处理文本的管道，它会把文本切分成多种类型的对象，如页、段落、行、词等等，最终生成一个DIV文件。从TeX出现到现在已经有超过三十年，回顾过去，我们会惊奇的发现它仍然是非常“早期”的东西，Glenn说。

实现TeX的算法：回首编程技术的过去三十年

TeX源代码中有很多现在并不被认为是好的编程风格的例子，像：

全局变量；
一个字母的变量；
goto语句；
数百行长的过程；
大量宏；
重复代码；
局部变量重用；
到处都是单线程假设；
可变性代码普遍存在

阅读这样的代码就像是在访问另一个时代[…]在那本书出版的1986年，它代表了非常不错的编程方式，但很多方面现在已经过时了。

当时很多方式都是因为受到了当时可用硬件的限制，只有有限的计算能力和可用内存，据Glenn所说，Knuth为了减少函数调用到最小程度做了非常大的努力，而那实在是太昂贵了。这使得TeX的代码库高度整合，从而“抽取出任何一个部分都无法独立使用”。

TeX积极地使用技术来改善手动的操作，我们今天可能会真的看不起那些技术，但我们更应该仰视那些技术，因为要考虑到摩尔定律，不仅仅是那个定律，还有当时的语言实现技术。

使用Clojure重新实现TeX：Cló

因此，Tex可能并非是今天指导新手程序员的最佳示例，然而，Glenn之所以要重新实现它，是因为它能够展示出编程技术已经发生了多大改变，并且能够提供真实的示例，说明从过程化转换到函数式语言的时候，算法会发生多大改变。

据Glenn所说，想要理解TeX代码的功能很困难，大多是因为它的简洁和极度优化，正如上面所概述的。最初，他试图让自己的设计尽可能和TeX保持一致。正如上面所说，Tex严格地单线程执行，而在当今计算机领域，非常重要的一个目标就是利用已经可用的多核硬件。Clojure非常有用的一种特性是，让他可以把TeX的基本管道实现为一系列函数，然后他可以替换线程宏，从而从串行执行模式转换到并行执行模式。“那让我开始做一些像比较两个苹果的工作。” Cló的实现当然要比TeX慢很多，但转换到并行执行带来了“巨大的收益”。

Glenn发现另一个有趣的点是，他在某些时候不得不实现和TeX一样的优化。然而，不久他就意识到，那会让他无法使用在函数式语言中天然存在的非常好的抽象，从而让事情比应该的情况更加复杂。这也让他觉得不知道TeX的API受到了语言模式多么大的影响，特别是普遍的不可变性和单线程的假设。

对于Glenn最重要的反映来自于意识到编程技术有了多大的发展。如果我们回顾1982年的编程技术，就会看到：