前段时间DeepSeek是火爆出圈了,不仅在科技界引起了广泛的震动,很多普通人现在也开始在使用DeepSeek,甚至有的政府机构也开始在应用上引入了DeepSeek。那大家可能也很好奇,为什么中国在人工智能时代会不断地有火爆的产品,中国的整个科创生态到底有什么样的优势?复旦大学中国研究院的特邀研究员汪涛老师给出了相关演讲。
汪涛老师演讲的主题是中文在人工智能时代的优势。 DeepSeek之所以爆火,主要并不是它技术上获得了突破性的进展,而主要是其效率获得了数量级的提升,从而使得它可以在相同性能的情况下,成本可以下降将近二十多倍。之所以如此,是因为研发团队几乎是将各种可能提升效率的技术都充分地进行了挖掘。比如说更多地采用底层编码的语言PTX,一般来说越是更底层的编程语言,它的效率就会越高,但是编程的难度也会越大。另外还有适当地降低精度,比如采用一个字节的8比特浮点运算,而不是32比特,从而这就可以成倍地减少存储量和运算量。
这个在人工智能里面有一个专业的术语是叫量化,另外还有采用蒸馏的方法,可以极大地减少参数的数量。另外还有混合专家架构,专业术语叫MoE。多头潜在注意力技术,这个专业的术语叫MLA。这些技术本身并不是说完全是DeepSeek独创的,原来在美国人工智能的这个产业界的专业人员也知道这些技术,但为什么DeepSeek把这些技术充分利用了呢?现在就谈一个大家比较容易理解的,也确实非常有兴趣,有意思的一个方面:就是中文在人工智能时代它的技术优势。
DeepSeek充分利用了中文的这种优势,所以在它爆火之后,很多人开始关注到这个问题。
如果我们回顾一下两百多年来的历史,我们对于中文在现代科技中的作用,是经历了一个变化的过程的。
在中国古代,对周边在文化上有压倒性的这样的优势。其他地区对中国是非常仰慕的心态。但随着中国在近代的落后,尤其是甲午战争中国失败了以后,导致很多中国知识阶层开始反思我们自己,那首先反思的就是我们的文化,也包括自己的语言文字。这种反思很快就发展到极端了,甚至有人认为汉字阻碍了中国进入现代科技文明。也有人认为中国应当放弃中文的这个象形文字,方块字的这样的一个基本的形态,要改成拼音的字母文字。
随着以电子计算机为代表的信息技术出现以后,中文在计算机键盘输入上存在一定的困难。因为计算机的键盘它是来自英文的打字机,所以输入英文当然是最简单方便的。因此,过去曾经认为中文阻碍了中国进入现代科技文明的观点和思潮,在信息技术时代又再一次沉渣泛起。但是,二十世纪八十年代,中国科技界在汉字输入上做了大量的工作,在当时被称为是叫“万码奔腾”。这些汉字输入的工作在很大程度上降低了中文电脑输入的困难。其中比较著名和主流的有五笔字型输入法,也叫王码,是王永民先生发明的。那么另外一个常用的输入法是拼音输入法。虽然客观上说,直到今天中文还是比英文等字母文字的键盘输入稍微麻烦那么一点点。但是这些中文输入法,在很大程度上,已经有效解决了中文的计算机的输入问题。甚至在五笔字型这个输入法的基础上,充分地采用词组输入以后,它的输入效率甚至还可以超过英文的输入。
到了人工智能时代,这个情况发生了很大的逆转,为什么中文在人工智能中存在这样的一个技术优势呢?主要有以下这些原因:
首先是汉字非常的规整,或者说它非常整齐。汉字无论是书写还是发音,它的尺寸都是一样的,就空间的大小尺寸和它发音的时间长短尺寸都非常整齐。这种规整对于计算机的处理是非常方便的。比如要进行语音识别,中文每个字的发音都是声母加韵母,发音的长度一样,这样的话就相对比较容易区分出一句话中的每一个字的发音。而相比之下,英文一个单词的长度,从一个字母到十几个字母的都有,这样的字母文字,每个单词它发音的长度可能都是不一样的。像英文里面的“祝贺”,是congratulations,这就有15个字母。我们可能会好奇,那最长的英文单词会有多少个字母呢?如果我们到网上去搜索的话,可能会发现很多不一样的答案。还有一个问题是很多英文的句子,它的发音会有连读的情况,比如说what’s your name,那么这就更加难以区分出每个单词,虽然现在这些问题在人工智能的语音识别中都已经解决了,但是它解决的技术难度,确实它要比中文要困难很多,需要更大的运算量,几乎所有的字母文字都存在这个问题。
第二个是汉字的信息密度一般比字母文字要高。这个体现在很多方面。汉字它是一个表意文字,内涵很丰富,可以用词组、成语等很少的汉字就能表达非常丰富的含义。尤其像文言文,它的信息密度就更高了。对于人工智能来说,最终它体现是相同含义的一段语言或文字,在计算机中间需要有多少存储量和计算量。一般来说,中文的存储量和计算量它都是最少的。如果我们对比一下书面相同内容的中文和英文或其他的字母文字,中文一般都是页数或者它的幅面是最少的。但我们要注意,这个并不是说完全绝对的,因为英文也有人家的优点,比如说它相对比较严谨,所以在比较严谨的一些论文或法律文书里面,有可能英文的信息密度与中文的差异就没有那么大了。但是由于绝大多数情况下,中文的信息密度的确是比较高的,所以在人工智能的训练中,相同内容中文训练的存储量和计算量就会比较少。这是中文效率优势的第二个体现。
第三个是它的稳定性。汉字是相对比较稳定的一种语言,我们今天所使用的汉字与几千年前的甲骨文大都是非常接近的。对于新出现的事物,汉字是通过常用的一些字去建立新的词组来进行适应,并且这样的词组今天天然地会存在有规律性分类的这样的一些特性。比如说是机器这个里面的机这个字,可以组成拖拉机、播种机、飞机、纺织机、发动机、蒸汽机、计算机,如此之多的机器汉字都可以用机这个形成词组来表达。汉字的稳定性对人工智能带来的好处是训练的参数可以更少,有效的重复训练可以更多,那么准确性就更高。
相比之下,英文每年都会增加大量的新词,常用的单词都可能会发生变化。当然我们提到中文在人工智能时代的技术优势,并不是要把它过度地拔高,只是从以上不同技术时代,中文技术优劣势的变化过程中,希望我们能更客观地看待我们中国自己的文化。在进入人工智能时代,我们更应该发挥中文的优势,使得中国在人工智能时代可以获得更快的发展,并且有更好的经济效益。从我们对自己语言的态度变化中,我们应该获得一些启示:就是如何用科学的态度去看待自己的文化。所谓利弊或者优势、劣势,它永远是相对特定的要求来说的。我们不能说遇到某种劣势就简单地去否定我们自己的文化,也不能遇到优势就自我膨胀,科学的态度就是如果它是劣势,我们就应该想办法通过一些技术改进,去消除或者减少这种劣势。如果是优势呢,我们就应该想办法去充分地开发利用它,即使是潜在的优势,如果你不去充分地开发利用它也不会自动地体现出来,或者说它体现得不够充分。
编辑: | 刘清扬 |
责编: | 范燕菲 |
剑网行动举报电话:12318(市文化执法总队)、021-64334547(市版权局)
Copyright © 2016 Kankanews.com Inc. All Rights Reserved. 看东方(上海)传媒有限公司 版权所有
全部评论
暂无评论,快来发表你的评论吧