随着OpenAI推出的人工智能系统ChatGPT的持续火爆,各行各业的人们都在讨论ChatGPT。作为ChatGPT早期使用者之一,我们将结合临床试验中的工作场景,从以下三个方面了解ChatGPT的潜力和能力边界。
一、ChatGPT是什么?
二、ChatGPT在临床试验中的应用案例。
三、ChatGPT的局限性。
一、 ChatGPT是什么?
ChatGPT由Chat + GPT组成,Chat指会话,GPT是“Generative Pre-trained Transformer”的首字母,译为“生成式预训练模型”。它是一种基于深度学习的自然语言处理模型。我们可以将ChatGPT想象成一个会说话的图书馆, 里面存储了海量的知识。当我们用人类的自然语言向它提问时,它能够“理解”我们的问题,迅速从这些知识中找到合适的答案,并生成连贯的语言回复我们。
在我们使用ChatGPT之前,它已经通过大规模无标签数据进行了预训练,掌握了丰富的知识。这也是它为什么能快速响应我们的提问的原因。
二、ChatGPT在临床试验中的应用案例
在正式开始案例之前,需要先简单了解一下打开ChatGPT大门的金钥匙——提示词(Prompt)。
提示词 (Prompt) 指在自然语言生成任务中,提供给模型的一个短语或语句。它的作用是给模型提供背景信息,引导和指示模型生成符合我们预期的回复。
提示词的好坏,直接关系到回复结果的质量。很多时候,我们发现模型的回复总是泛泛而谈,都是因为提问没有提供必要的背景信息,任务描述不够明确具体造成的。
接下来我们举两个临床试验中使用ChatGPT的例子。
案例一:数据一致性核查
在这个例子中,我们让ChatGPT用Python代码实现两个文件的一致性核查,我们向ChatGPT提出下面的问题:
最终ChatGPT给出了如下代码和注释,代码生成是ChatGPT的强项,我们只需要稍加修改就可以使用了。
案例二:CDASH变量标准化
第二个案例要复杂一些,我们将探索ChatGPT对不同数据格式上下文的理解能力,以及通过举例推理的能力,也就是少样本提示(Few Shot Prompting)。
在建立eCRF时,我们通常要按照CDASH标准命名字段变量,但在实际工作中,由于对数据标准的理解、个人经验、不同治疗领域等原因,字段变量的命名常常会出现不符合CDASH标准的情况。
我们是否可以借助ChatGPT来实现变量命名的自动化审核呢?让我们做个实验。
实验的思路是:将CDASH Model中的观察类输入到ChatGPT中,然后给出CDASHIG中某个Domain的CRF中的问题,让ChatGPT根据CDASH Model给出这些问题的变量名。
具体步骤是,第一步,选取CDASH Model的发现类(Findings Class), 将发现类的CDASHIG Variable,DRAFT CDASHIG Definition和Question Text输入给ChatGPT(见下图) ,由于ChatGPT无法输入表格,所以这三列数据我以“|”做了分隔。
第二步,将CDSASHIG中的DA域的Question Text输入给ChatGPT,让它给出每一个Question Text对应的符合CDASH标准的变量名,为了让ChatGPT理解我们的任务要求,在这一步我们给ChatGPT举了一个任务的例子。
这些变量名在CDASHIG中已经给出,我们的目的是检验ChatGPT能否理解我们给出的CDASH Model,并正确推理出不同问题的变量名。
下图是ChatGPT给出的结果:
从实验结果来看,DATEST、DADTC、DALBLID都是错误的,RES和ORRES也没有区分开,实验结果并不理想。
那么,是不是意味着ChatGPT在专业邻域没有用武之地呢?
答案是否定的。之所以实验结果不理想,原因有以下几个方面?
1. ChatGPT中缺少完整的CDISC标准数据,因为ChatGPT模型训练的数据来源于公开数据,而CDISC标准是非公开的;
2. 通过ChatGPT官网的对话界面输入的CDASH Model数据量有限,导致模型不足以推理出正确的结果;
3. 作为通用模型,ChatGPT在垂直领域没有经过微调,准确度较低;
了解了原因后,我们就可以“对症下药”,在垂直领域,我们可以借助Open AI的API将垂直领域的知识“外挂”到大语言模型中,这样一来,可以补充大模型中缺少的数据,二来,通过API 微调,可以生成更适合于专业领域的模型,从而提高准确率。
三、ChatGPT的局限性
尽管ChatGPT模型在知识的广度和深度方面已经远超人类,并具有较强的推理能力,但它仍然存在以下三个局限性:
第一,可靠性。由于ChatGP基于概率推算生成内容,无法保证回复内容的准确可靠。其回复可能包含未经验证的信息、误导性陈述以及逻辑错误,因此用户需要对其回复进行判断和验证。
第二,时效性。训练ChatGPT模型的数据截止到2021年9月,当我们检索这个时间之后的信息时,它无法提供最新的信息(目前 Plus 用户可以通过 ChatGPT 的 WebPilot 插件检索最新的信息)。
第三,合规性。默认情况下,在ChatGPT官网输入的内容(非API),OpenAI可以用来训练ChatGPT,对于隐私数据和保密性有要求的内容存在数据泄露的风险。
作为通用大语言模型的ChatGPT,在其推出的短短数月内,便在广泛的应用场景中展现出了强大的潜力。相信在未来,随着研究的不断深入,以ChatGPT为代表的人工智能技术在临床试验领域会有更出色的表现。
作者简介
白欣刚
现就职于药明康德全资子公司康德弘翼。在计算机和生命科学领域有十几年的跨领域工作经验。在临床试验数字化系统解决方案上有深入的研究和实践经验。长期在行业内媒体普及电子数据采集系统和各种临床试验数字化系统。
DIA中国数据管理社区(DMC)简介
我们的使命是提供一个中立的平台,分享和交流有关临床试验中数据管理相关的知识和操作规范,致力于帮助更多临床试验工作者接触和了解数据管理工作,分享实际遇到的困难并对找出解决方案给予启发,希望通过以此推动临床试验中数据质量的提升和引起更多从业人员对临床试验中数据质量的重视。
我们的社区组织者为资深的数据管理人员,我们具有丰富的行业知识和分享精神,期望能够与更多的行业人员进行交流和共享。DIA中国数据管理社区将定期组织线上线下的深度分享交流环节,包括专题讨论会,研习会,沙龙,和培训,让成员理解和学习数据管理的知识和规范。同时,我们还希望能够将我们的DIA中国数据管理社区是一座连接行业和学校的桥梁,通过介绍行业知识进入学校等活动帮助在校学生了解更多行业知识和对将来在临床试验领域就业的职业规划指引。
我们的社区是具有行业影响力,领导力和社交功能的中立平台。
关于DIA
DIA是一个全球化、跨学科的国际性学术组织,在中立的环境中,融合医药研发领域全行业的意见领袖,探讨当前研发的技术问题,提升专业能力,以及催化行业共识,在全球医药研发领域享有很高的声誉。