对于这一点周至倒是无所谓,谁不用谁就吃亏,如果有谁愿意将自己活成一个信息孤岛,愿意做不拥抱先进事物的井底之蛙,那周至也只会当笑话看。
聊完了这些,周至才将自己学术上的一些想法向辜老作了汇报,最重要的当然就是通过让小智深度学习,由它来完成中古音拟构这个课题。
要和辜老解释这个,可就比和麦明东解释要困难多了。
好在有一个比较简单的案例来解释,那就是围棋。
“围棋的规则其实是十分简单的,纵横十九道,三百六一点,落子只能在点上,一个点周围的点被别人的棋子占据就会被踢掉,棋子周围的空点称为“气”,棋子必须有气才能存活,这就是下法。”
“而胜负判断就更简单,通过计算双方占据的地盘大小来判断输赢。”
“剩下的就是一个统计学的问题了,小智需要通过在万千棋局的学习中,判断出相应形式下每一个可以行棋的点位,其胜率是多少,然后将棋子落在胜率最高的位置上。”
“如果几个位置都差不多,那就要计算后续的发展,选出一个最利于后续发展的点位。”
“如果都还差不多,就要从以往的学习经验当中,找出一个胜率最高的下法来。”
“当然了,讲述起来十分简单,但是底下却是十分深奥的数学知识,因为围棋所能够走出的棋局是海量的,理论上其数量会大于宇宙原子总数,不管多么先进的计算机都不可能在短时间里遍历所有的下法,因此就需要利用数学工具,使用统计学方法分析和解读如此庞大的数据,以体量,多样性,速度,价值各个方面,洞悉海量数据背后的规律和信息,最终从海量数据中提取有价值的信息和洞见。”
“大体的工作原理,是先进行数据分析,通过统计方法对大数据进行分析,提取有用信息,揭示数据之间的关系;然后确立推断与决策,利用统计推断方法,从样本数据中推断总体特征,支持决策制定;最后将推断与决策与复杂的数据结构和数据多样性结合起来,构建出高效统计模型,以应对复杂的挑战。”
“相比于综合型人工智能的目标,围棋行棋模式的计算机自身学习,基本上算是最简单的一种智能模型了,到目前我们所取得的成果是阶段性和革命性的。”周至笑道:“就在今天上午,小智以观棋模式全程跟踪了常神童与大竹英雄对弈的棋局,对其中的关键几步转折点的分析,得到了以棋圣为代表的中国棋院的认可,认为可以进入验收应用阶段。”
“这个和你的研究存在什么联系呢?”辜老虽然以九十高龄还在学习计算机,足见其钻研精神,但是对于这类高端应用还是望而莫及,毕竟学术有专攻。
“对于小智来说,行棋的胜负逻辑,和语言的文法逻辑,其实是可以等同视之的。”周至说道:“只要是逻辑世界,不管是数理逻辑还是文法逻辑,小智都是可以学习并掌握的。”
“其实关于古文文法逻辑在信息产业上的应用,我们也是很早就开始了尝试的,那就是基于元数据库研发的数据检索引擎。”周至笑道:“这个引擎后来走向了两个分支,一个成了现在的数字图书馆配套的瀚文搜索引擎,在做《集韵疏证》三校的时候发挥过大作用的。”
“嗯,的确好用,直到现在我还在用。”辜老点头:“节省了好些查阅资料的功夫,听说还搞出了一些‘名人行状’之类的东西?”
“对,这个分支的大作用是在学术上,供大家进行数据检索用,同时还可以让程序学会我们检索数据的思路,让它去检索海量的典籍,最后将我们想要的一系列知识点寻找出来,建立起逻辑关系,最后形成一部检索成果。”
“我同学张辛夷就在做《苏东坡轶事汇编》的三苏轶事的检索程序脚本分析研究,作为自己的毕业论文课题。”
“等做出来后寄给我看看。”辜老对这个当然很感兴趣:“你中学同学吧?时间真快,这都要本科毕业了。要考研吗?”
“要,好像还挺有信心的。”肘子笑道:“不过我们先不说它,现在还有一个通用类的引擎,是我们与四叶草浏览器相配套的,方便大家在网上查询信息的网络黄页标签类搜索引擎。”
“举这两个例子其实就是想说,这类文法逻辑分析类的工具其实已经存在了,只要小智掌握了这类工具的使用方法,理论上是可以根据逻辑关系解读并检索出有效信息的。”
“比如苏东坡行状,我们可以先给苏轼打上一堆的标签如苏轼,子瞻,和仲,铁冠道人、东坡居士眉山苏家,三苏,嘉佑龙虎榜进士,制科三等,大理评事签书凤翔府判官,杭州、密州、徐州、湖州知州,乌台诗案,黄州团练副使,旧党,文豪,豪放派词人,苏黄,苏辛,欧苏,唐宋八大家,宋四家,宋六家,《东坡七集》,《东坡易传》,《东坡乐府》,《寒食帖》,《潇湘竹石图》,《枯木怪石图》等等标签,利用这些标签检索数据库,得到合用的信息,再从这些信息里提取出更多更复杂的标签,最后完成苏轼的行状画像,将曾经在历史典籍,古人笔记,朝代公文章奏当中出现过的苏轼事迹全部撷取出来,形成一个完整的《东坡行状》来。”
“这套方法我们是成功了的,现在的做法,就有点类似于让给小智掌握这套方法,我们只需要给他下达一个‘请搜集欧阳修行状’的指令,他就可以用我们搞出《东坡行状》的方法,去搞出《六一居士行状》来,进而也可以使用于其余的历史人物。”
“至于说声韵检索,虽然相比名人行状检索要复杂一些,还涉及到从方言标本库中选取样本进行拼合和验证的工作,但是底层的研究逻辑规律,对海量数据利用大数据统计分析方法进行检索比对,最后找到最优解,这套思路其实是相似的。”
“声韵在文字上的体现是相当多的,包括了前朝留下来的诗词,骈文,古人笔记里记录的俗谚,歌词,曲词,更重要的,还有历朝官方颁布的声韵文献,以及历朝学者们对声韵的研究成果。”
“将这些东西都尽量搜掘出来,分时代进行规律总结,再从方言样本中选取出最优解,将之确定为最接近当时的读音,最后整合出一套中古声韵拟构表来,我觉得从思路上来说,是没有毛病的。”
“主要是要将现代信息技术的优势发挥出来。”(记住本站网址,Www.WX52.info,方便下次阅读,或且百度输入“ xs52 ”,就能进入本站)