分享一些我曾研究过、但短期内不再准备继续研究的主意。 为免恶性竞争的麻烦,我还打算继续研究的主意,便暂时不在这里公开了。 如果有人看到这些内容后愿意继续研究,不失为尽其用。

(如果还愿意带上我一起合作,自然是更好的了)

[2019] 与非神经网络(NANDNet)

这是团队为实现启蒙1号而最早尝试采用的技术路线,对NANDNet的早期研究催生了实验室的芯片学习(Chip Learning)兴趣小组并且活跃至今。

2019年7月17日,陈云霁找到我讨论人工智能与符号逻辑结合的研究路线。 他提出采用人工智能模型拟合一颗处理器的中期愿景,并询问我有什么具体技术路线。 18日,我展示了与非神经网络(NANDNet)的想法。

NANDNet将与非逻辑进行连续松弛(continuous relaxiation),将离散的符号逻辑以数值连续的表达式表达,然后运用深度学习中的梯度下降进行优化。 以正数表达逻辑1,以负数表达逻辑0,与非逻辑可以写作: 其中权重表示的是与非门之间的连接关系,为正数表示将接入该门,为负数则会屏蔽掉产生的一切影响。

随即NANDNet投入研究,以拟合4位加法器为短期目标。 初期进展喜人:20日,4位加法器准确率达到42%;21日,准确率达到88%;22日,准确率达到95%。 然而,在后来的一年半时间内,NANDNet都未能实现最终的准确率突破,也没有在更大规模的问题上取得什么有意义的研究成果。

2021年,承书尧的BSD方案取得突破;年底,以BSD方案构建的启蒙1号成功通过流片测试,NANDNet相关研究自然终止。

[2021] 芯海设想

源于我对美芯片制裁的担忧。中美半导体制造技术存在差距,体系结构学者如何帮助弥补?我们在工作中通常想到的弥补方式,大多也可运用在美先进工艺上,结果对我形成更大差距。

2021年时,通过与杜子东、支天的讨论,我听到有将芯片工作电压调至极低以降低功耗的研究。 于是我在思考,是否能够采用类似技术解除芯片供电、能效、散热等限制,从而堆积廉价制程工艺芯片,达到高性能? 如果单块芯片性能不足,可以以量取胜,发挥我工业规模优势,而这是美无法模仿的。

“芯海”设想构建以海量廉价芯片搭配光伏、铺设在戈壁滩上、规模达10平方千米的超级计算机。 它不能保证稳定运行,但可以以类似亚马逊EC2 Spot的方式提供服务。 如果未来形式发生变化,有关乎国家安全、急需特大规模并行机的应用负载出现,例如如果发生OpenAI沿其技术路线持续取得重大突破的情况,或许能通过这种方式消解美制裁的影响。

2023年3月,科学院征集大科学装置规划,我向所领导汇报了这一设想。 后经反复评估和讨论,到7月,我们得出结论认为芯海成本仍然太高,很难取得效益,因而废弃了这一设想。

[2024] 非凸芯片封装

如今深度学习领域“Attention is all you need”蔚然成风,类Transformer架构的运算密度几乎为1。如果这一趋势不改,我们之前关于深度学习加速器的一切假设都将被推翻。 这个主意源于一个简单的猜想:NVIDIA连续多代产品将芯片规模做到光罩限制,其内容纳的算力并无什么实际用途,主要目的是为了获取最大的芯片周长,支撑周围电路的带宽。 如果这个猜想是对的,那么,显然应当有更“聪明”的做法提高周长。

我假设芯片在晶圆上不一定非要以矩形排列,甚至不一定非要是凸形,只要是平面密铺皆可。问题变为寻找一种多边形,使其:

  • 密铺整个平面;
  • 外围矩形边框不超过光罩限制;
  • 具有充分大的周长;
  • 所有的角符合硅晶体的晶体结构,便于切割。

或许存在某种分形几何图形,能够将周长增至无限长——想象将一颗矩形芯片如蚊香一般二分。

因为我对相关领域了解不多,我仅提出一个设想,并不准备对其深究下去。