第67章 破译外星文献的方法(2)(1/2)
此时奇迹便发生了。
如果你向这个经过混合数据训练的大语言模型提问:“请问,在β星人的语言中,xxx这个词是什么意思?”
模型会立刻检索其内部概念空间中与“xxx”这个符号相关联的那个核心概念点。
它会发现这个概念点不仅仅与外星语的“xxx”相关联,同时也与人类语言中的“狗”、各种狗的图片、狗的叫声等一系列信息紧密地联系在一起。
于是大语言模型便能够给出一个相对准确的回答——根据我的分析,xxx这个词在β星人的语言中,指的似乎是一种在形态和习性上与地球上的“狗”非常相似的生物。
翻译就这样成功实现了。
在不依赖于任何预先存在的双语词典或语法规则的情况下。
它并非是通过传统意义上那种“语言A到语言b”的直接转换来完成的。
而是通过一条更为巧妙和间接的路径来实现的。
语言A→共享概念空间中的核心概念点→语言b
这种基于共享概念空间的翻译方法,其成功的关键在于训练数据集中必须包含足够数量和足够质量的,能够充当桥梁或锚点作用的“罗塞塔石碑”式数据。
这些罗塞塔石碑数据,可以是包含了多种语言对照翻译的平行语料库,也可以是图文并茂、音画同步的多媒体信息。
但其中最为强大和可靠的宇宙通用罗塞塔石碑,无疑是那些基于普适性自然科学规律和数学原理的数据。
例如,一张清晰描绘了氢原子内部结构,一个质子和一个电子的示意图,旁边同时标注着β星人语言中对于“氢”这个基本元素的称呼。
无论在宇宙的任何一个角落,氢原子的基本结构都是完全相同的。
大语言模型在学习到这条数据之后,便能够轻易地将外星语中表示“氢”的那个符号,与人类科学体系中关于“氢元素”的完整知识图谱精确地对应起来。
再比如,一份β星人版本的化学元素周期表。
尽管其上所使用的元素符号和命名方式可能与地球人类的习惯完全不同。
但元素周期表其内在的排列规律是具有普适性的。
大语言模型只需要通过对比其结构特征和排列规律,便能够迅速破解β星人语言中所有化学元素的准确名称。
以此类推。
在整个未知语言的破译过程中,新训练出来的大语言模型会首先从那些基于普适性数学原理和基础物理规律的数据中,找到最为稳固和可靠的翻译锚点。
例如数字的表示方式、基本几何形状的称谓、常见物理常数的符号、以及基础化学元素的名称等等。
本章未完,点击下一页继续阅读。