9月底的时候,徐勇果然来鹏城了。
陈义哲带着徐勇参观了cdss项目目前的情况。
长达一年多的时间里,徐勇陆陆续续发来了大量的医院临床数据,而cdss项目组多达30个人的技术人员就一直在做标准化数据的工作。
目前夏梦已经在陈义哲的方案设计下,初步开发了支持阑尾炎,肝结核,胃结核等几项特殊疾病的cdss。
“怪不得搜夏引擎的技术让百度技术团队惊为天人,看来夏梦互联网内部是人才济济啊。”徐勇感叹道。
“呵呵,百度的技术也不差,你看google都被百度挡在国门外,现在google也只能曲线入华。”陈义哲笑道。
徐勇摇了摇头,说道,“说句真心话,百度和google还是有一定的差距的。只是在国内市场,百度占了天时地利,这其实是‘百度更懂中文’地一个集中体现。就简单地说分词,百度当年做分词,先从一个人工编辑号地字典开始,用这个字典跑一些网页,观察里面地badcase。”
“可能是分词过细,或者是中文人名没分出来,然后就尝试根据中文语法规律加入规则或添加词表解决这些badcase,如此往复,直到有满意的结果。上线应用,发现有新的badcase就再研究加规则,当然也有自动流程发现和确认如“人艰不拆”之类的新词!”
“徐哥,想不到你这个医药出身的也懂得这其中的技术!”陈义哲笑道。
“都在这一行干了五年了,没吃过猪肉,也见过猪跑。”徐勇自嘲道,紧接着他继续道,“Google和百度最大的区别,就是google更加强调技术,它做分词则是把问题看成一个概率问题:如果页中哪些字经常一起出现,那麽它们很有可能就是一个词。看哪些词后面会跟的地得,的地得后面有常跟哪些词,语法结构也就出来了。”
“解题思路就是把所有抓到的页往MapReduce裡一丢,参数算出来就好了。评估分词质量的方法也很简单,就拿新模型放到网页检索的模型裡,做个实验看质量有没提升就行。这套方法结果之好,基本把中文分词做成了一个没有多少悬念的简单问题!”
“其实这也是Google不懂中文的问题,因为它不需要中文语言专家的参与!同时这也就是Google做实时翻译的思路。”陈义哲接着道,“不过这种方法虽然简单,看似没有什么秘密可言,可是首先,Google得先有这么多的网页数据,还得有大机群,有分布计算框架,还有可复用的模型……这点套在cdss其实也一样,cdss也需要大数据,计算的模型,看似简单,但是其实复杂无比!”
“这是必然的,毕竟医学上的知识太复杂了,做cdss项目往往需要考虑非常多的患者因素,如症状、体征、实验室检查数据、家族史、基因、流行病学资料、现有的医学文献等等。同时新发表的临床研究数以万计,质量参差不齐,这些大量的数据导致了即使cdss开发出来,最终维护上仍会存在巨大困难。”
“目前较为成功的临床决策支持系统往往局限于某个领域,覆盖范围有限。比如,1971年上线使用的Leeds腹痛诊断系统,其诊断的正确率高达90%以上,而医生的诊断正确率在80%以下,但这套系统仅仅也只能用于诊断腹痛。由此可见,cdss项目的研发路遥遥而修远兮!”徐勇不由叹道。
“徐哥,目前大多数的临床决策支持系统,通常会包括三个组成部分:知识库,推理机和人机交流接口。知识库储存着大量的编译信息,通常采用IF-THEN规则进行存储和管理。”
“例如,关于药物的相互作用,规则可以写成“IF服用了药物X,AND服用了药物Y,THEN显示警告信息”。高级用户也可以根据自身需要在另外的编辑界面中自定义知识库里的规则,比如对新药进行实时更新等。推理机则根据知识库里的规则对患者的资料进行自动整合、分析。人机交流接口则是将分析结果反馈给用户或者作为系统输入。”
陈义哲看了徐勇一眼,继续道,“这种采用知识库的临床决策支持系统确实会出现临床数据复杂化,更新维护困难上的问题。不过我已经准备在着基础上,采用人工智能的形式!”
“人工智能?”徐勇惊讶道,虽说人工智能提出了将近40年,各国也投入大量资金研究,可是目前并没有大的突破,而且据他听闻,Google已经在前两年开始进入了这一领域。
陈义哲点了点头,“通过机器学习从已有的经验中自动攫取规则,让cdss系统不仅仅成为数据的输入者,也要让它成为数据的采集者。”
“夏梦这边的AI是基于那种构建方法?”徐勇好奇地问道。
“主要是基于人工神经网络和遗传算法的结合!”陈义哲答道,其实确切地说,若是最终确定把cdss推出市面,那其ai终端必然是大白,唯有如此,才能保证数据及时地被大白吸收,而诊断也不会轻易的有白痴问题的出现!