对话英矽智能Alex Zhavoronkov:对「AI+新药」企业关键能力的思考-热点聚焦
数据、算法优势及经验证的自研管线,使英矽智能发展到风险可控的阶段。
(资料图)
本文为IPO早知道原创
作者|罗宾
微信公众号|ipozaozhidao
AI驱动药物研发虽然经历了蓬勃发展,但道阻且长。股价相对高光时刻的大跌、裁员等消息都指向了AI制药公司在资本寒冬下的主要挑战:AI助力的药物研发能力能否被验证。
2022年5月,由端到端的AI驱动药物研发企业英矽智能(Insilico Medicine)所开发的针对特发性肺纤维化(IPF)候选药物ISM001-055成为了首个在中国进入临床试验、由AI发现和设计的药物。7月,ISM001-055完成了首批健康受试者给药。今年8月,英矽智能完成了9500万美元D轮融资。
近期,英矽智能创始人兼首席执行官Alex Zhavoronkov博士在与IPO早知道的对话中表示,投资者对公司的判断不会受资本环境影响。作为一家AI药物研发公司,英矽智能保持竞争优势的同时,也重视风险的可控性。D轮融资的资金将用于加强人工智能平台建设和新药研发管线布局,还将投入于全自动化的智能机器人实验室建设,该实验室不久将在苏州落成。
2014年成立至今,英矽智能已在6个国家和地区建立了办公室和研发团队,目前在全球拥有200多名员工。2018年,英矽智能的部分业务从美国转移到中国。2021年初,任峰博士加入英矽智能,担任首席科学官。在任峰加入后的一年内,公司组建了近100人的制药领域团队。2022年6月,英矽智能宣布任命任峰为联合首席执行官,建立了AI+DD(AI+ Drug Discovery)并进的创新组织架构。
Alex详细介绍了英矽智能一路走来他在关键节点上的思考和变化。
在创立公司前,Alex拥有计算机和生物医药的复合背景,并在抗衰老领域持续进行了多年研究,也做出了“衰老时钟”AI预测模型。Alex表示:“如果把衰老看成一种疾病,你就可以基于DNN用人体不同阶段的数据去预测人体的年龄状态。你可以进一步研究是哪些因素导致了面容衰老和身体机能衰老,因此我们需要大量的生物学数据。通过训练,我们知道了如何锁定衰老和疾病进程中关键蛋白的变化。”
抗衰老是Alex将毕生投入心血的领域。正是在这些研究中他发现,将AI用于药物发现有更大的探索空间。2014年,Alex创立了英矽智能。通过对数据追踪、收集和清洗,算法搭建、完善和验证,公司建立了一体化的人工智能药物发现平台Pharma.AI,其主要包括:靶点发现引擎PandaOmics、小分子生成和设计引擎Chemistry42和临床试验结果预测引擎InClinico,用于变革药物发现及开发流程。
2018-2020年,AI制药从概念开始进展到一些里程碑,英矽智能也从软件平台服务商发展到AI驱动的biotech。在Alex看来,这样的转型是顺势而为,“英矽智能创立之初主要通过为药企服务,来训练算法并验证平台的能力。但现在大药企建立了自己的AI团队,对数据的开放程度不高,对外界的需求也在降低。”
至今,英矽智能建立了超过30个新药研发项目,涵盖自研与合作两种商业模式。“英矽有能力将针对全新靶点的管线推进到临床,大药企更加信任我们了。我们仍然会与大型药企继续合作,但如果没有这种验证,不会有真正的合作。”
在谈到未来5年英矽智能的愿景时,Alex表示,公司将进一步保持人工智能平台建设的领先地位,同时推进自研管线的发展并加大对外合作。“我们的管线证明了平台能力和研发实力。尽管大型药企的合作意向通常会等到一款产品的临床II期的验证结果,但我们想与合作伙伴从早期阶段,比如PCC(临床前候选化合物)阶段,就开始授权合作。”
此外,他还希望监管方面能够对AI制药有进一步的了解和政策支持,“我们正在致力于降低新药研发的风险,提高运营效率,如果监管机构以不同于传统研发的监管策略来审视,我们将有望更快地服务于患者。我们的初衷是尽快给患者提供更有效、更经济、更多选择的药物。”
以下是对话内容(有删节):
Q:IPO早知道
A:Alex Zhavoronkov 英矽智能创始人兼CEO
Alex Zhavoronkov,摄影:肖南
Q:2012到2013年AI已经有一些实际应用,以你的经历看,AI能够高效推动生物制药行业发展的关键因素是什么?
A:AI在应用层面有两个细分领域发展非常快。一个是图像识别,AI擅长于此,技术成熟,很快能商业化。AI图像识别太过于原始,它只是将AI作为工具,虽然图像识别用于疾病诊断对医疗带来了很大进步,但这不是我们想选择的方向,这并不是做创新。另一个领域是文本处理,经过深度学习,AI对文本的理解能力大幅提高,现在AI甚至可以生成很棒的文本。制药行业中,很多医学文献和专利数据、患者数据可以被AI很高效地处理,我们考虑过这一块,但最终还是决定走一条没人走过的路,开辟新的路,这样才会有真的突破。
最初,我们主要的创新是在用AI理解和处理基础生物学数据这块,利用我们的深度神经网络(DNN)模型去预测生理年龄(biological age),这里面有非常多的故事。
曾有一家药企找到我们,让我们针对一款药物找到能够应答的靶点,或将应答和不应答的靶点做区分。此前他们已经试了很多种方法都没有成功。我们当时考虑,或许可以用基因组学数据去读出衰老相关的靶点或生理年龄预测靶点对这款药物的应答状况。我们发现预测生理年龄更年轻的患者,对这款药物在相应靶点有应答,但预测值更年长的则无应答。我们的方法比医生的判断更快更准,这让我们很受鼓舞。
第二个小故事很有意思,发生在肺纤维化(IPF)项目研究的初期。起初我们想针对无法治愈的重大疾病挑战发现全新靶点。刚开始我们用AI发现了20个候选靶点,之后利用优先级排序筛选出了5个靶点,令人惊讶的是这5个候选靶点在早期研究中都表现出安全性和成药潜力,这在靶点发现中是非常罕见的,一般情况下成功发现新靶点的几率只有1%。
还有一个故事是我们与一家现已上市的美国生物医药公司合作。他们让我们用自己的方法去发现能影响胚胎到胎儿发育过程(embryonic-to-fetal transition)的新靶点。我们研究出预测embryonic-to-fetal transition各阶段变化的DNN,以及该过程中起决定作用的蛋白质结构变化,通俗地说就是哪些蛋白的哪些变化决定了干细胞分化成了皮肤细胞、脑组织细胞等。利用我们的这套系统,这家美国上市公司找到了一个胚胎发育过程中决定性的蛋白变化,发现了一个有潜力的靶点,这个新靶点同样适用于癌症治疗。
后来,这家公司基于这个新靶点的专利成立了新公司,连同其他专利一起打包在美股上市,新公司上市后的市值达到了1.15亿美元,但他们在合作中只付给了我们30万美元。我们非常震惊,但也明白了自己的价值。更重要的是,我们意识到必须有自己的化学能力,才能获得足够的收入,才能在商业上走得长远。
而说到化学部分,不得不提到的就是我在UCB(加州大学伯克利分校)遇到的一位计算化学家。2015年我尝试联系他,推荐他使用我们的生物学AI平台,但他告诉我:“Alex,现在最重要的不是发现靶点,而是要去建立你们的化学部分的平台。以你们的技术水平,你们化学平台很可能将领先。”其实在2014年我说过我不懂化学,也不会去做化学的研发部分,但2015年,GAN(生成对抗网络)技术出现,我们决定用GAN去支持我们的DNN,后来我们的化学平台发展得很好,这位计算化学家预言成真。
Q:当时团队有多少人?
A:25个,人不多,因为当时还只有AI部分,我们还没打算自己做新药。25个人都是AI科学家或生物信息学科学家。
Q:后来是如何发展AI和药物研发团队的?
A:当时只有少数公司从纯AI业务扩展到生物学、药化领域,既懂AI又懂制药的科学家非常少,除非我们愿意花上百万元请到一些顶尖人才。所以我们采取了一些不寻常的方法招人。我知道东欧有很多机器学习的科学家,我和东欧的教授一起举办了黑客马拉松(Hackathon)来寻找顶尖的深度学习的人才,让他们在一周内挑战我们发表的高规格论文的成果。之后我们选出排名前几的选手,说服他们加入我们公司。那时AI科学家没有被大型跨国公司的高薪环境给“宠坏”,他们的忠诚度也更高。相比之下,中国很多AI明星企业快速兴起的时候,AI科学家在一家企业的就职时间普遍连1年都不到。
AI更早商业化的图像识别、语音识别等产品,很快能看到结果,但新药研发不是这样,它需要很多年才能被验证。我们需要AI科学家在公司很多年,才能知道他们发现的新分子是否有效。而且光做一个天才数学家是不够的,我们希望科学家们了解生物学和化学。他们要了解在遗传水平、表观遗传水平、基因表达水平和表型水平上发生了何种生物学变化;如果AI科学家真正理解了化学的运行原理,他开发的DNN可以超越人类表现。因为当你理解数据背后的价值,你才知道选取哪些数据进行训练;或在你要产生新的想法时,你才知道数据的哪些特征对最终预测结果的准确性最为关键。我们现在已经有了跨学科的研究队伍。
Q:生物学数据比图像识别等其他领域的数据更加敏感,你们如何处理生物学数据的这个问题?
A:民众对数据的敏感性可能存在一些误解。据我所知,2000年人类基因组工作草图绘制完成至今,还并没出现人类生物数据被正规使用后导致的不良后果。目前陆续有很多国家公开了海量的生物数据库,英国是世界上生物数据开放程度最领先的国家,它的生物样本数据库可以被任何公民申请使用,数据是匿名呈现的。
科研项目也是数据的重要来源之一,我们追踪了很多国家的科研经费去向,包括美国、加拿大、欧洲、澳大利亚等,甚至中国。政府对于科研经费十分透明,每一笔都需要科研人员汇报用途。所以我们追踪了长达35年间,一笔笔经费如何变成论文、专利或获批临床研究的产品。很多国家,使用经费的学者需要公开发表他们的研究成果,并把使用的生物学数据录入公开数据库里,这些都是强制性的要求。
除了英矽智能产生的专有数据,我们还收集、整理并清洗了海量公开的生物数据库,并追踪了价值2万亿美元科研究费所产生的数据,用AI去训练它们,所以我们的数据有很高的质量。
Q:AI加速了生物制药业的发展,这是AI强大能力形成的水到渠成的结果,还是更多由人的意愿、对行业的认知所驱动的?
A:两者都有。其实AI发展的初期,我们并不知道它能在哪个领域起到最大的帮助。人们也经常对AI加速制药的发展有许多误解。一款药物的发现与上市需要经历好几百个验证的步骤,研发团队发现新的分子,新分子必须能够合成,还要能确保安全性、有效性,它要对正确的靶点、通路、生物组织起作用,我们为此需要做大量试验。许多步骤都可以在AI的帮助下加速,但也有很多是AI无能为力的。
我们选择与大型药企合作。当时我们发表了一些极具影响力的论文,吸引到很多药企的关注。早期时药企没有AI方面的人才。于是,我们围绕新药研发的端到端流程研发了一个工具包,以软件授权的形式提供给药企,而不是像其他公司那样只专注于某些环节。我们最大的收获不是数据,而是积累了专有的知识和算法,我们逐渐知道AI在哪里可以执行、哪里不可以。
过去20多年中,辉瑞等制药巨头的重磅产品大多都是收购或授权引进而来,即使是内部研发能力最强的诺华,平均每年上市一款药物,每年研发花费约90亿美元,而且并不都是针对重大疾病。所以,既然我们已经了解了新药研发的每个步骤的工具,我们就要制定更宏伟的目标,即研发出重磅新药。这也是我们开始第一条管线的初衷,也是任峰博士带领我们进入新的阶段的开始。
Q:无论是业务层面还是融资情况看,很多昔日的明星AI公司后来遇到发展瓶颈,所以长期看,什么是AI能做得好的,什么是AI难以做到的?
A:任何行业发展都会伴随着泡沫,有些AI公司在一段时间内被高估。比如,AI图像识别的壁垒并不高,公开数据库中有大量可被用于基础训练的数据。但生物学和化学领域就不同了,这些领域AI还可以发展出很多新的范式,很多新的AI的能力有待我们发现。
举例来说,我们将生成式对抗网络技术(GAN)用于候选化合物的发现,我们也获得了生物学和化学合成的数据,将年龄预测模型和深度生成模型结合或许可以被用于生成数字孪生,就像被禁的Deepfake(智能换脸软件)那样,我们也可以将这种孪生技术用于生物学中,生成与现实生物完全相同的数字双胞胎。例如你可以用GAN创造出50年后的虚拟“患者”,预测它未来可能会有的疾病和得病几率。因为AI擅长于预测人体不同路径的发展。
Q:现在看英矽智能有哪些壁垒?
A:首先在AI方面我们有先发优势。我们创立时,药企并没有自己的AI团队,他们能开放地分享一些数据和项目,我们从那时候就开始训练数据并生成自己的算法了。但其他新进者已经没法复制这一切了。对新的创业公司来说,今非昔比了。新进壁垒已经很高,我们可以利用好过去的积累。但我们对于AI的想法就是,无论我们取得了什么,这些成就已经消失了。我们试图领先行业好几年,还在不断创新。比如我们在建一个无人AI实验室,这个实验室完全由机器人控制,这样能更快产生更多的数据。
第二,制药部分的进入门槛会更高。一旦你确认了靶点获得专利,并将分子推进到人体临床试验的验证,你就具备了巨大价值。就好比你是一家饼干代工厂,但现在可以直接研制出饼干上市销售了,你不需要再去问药企他们需要做什么类型的“饼干”卖给顾客。
此外,我们的双CEO架构也是一种很先进的优势,因为这个行业很多公司的组织还是有很多固有形态的。所以经过一段时间,有些公司并没有发展起来,成功推进自己管线的公司变得越来越值钱,也有另一些变成了CRO,作为服务提供方,他们没有创造出新的东西。
Q:你们和药企的合作越来越多。至少在中国,通常一个公司成为大企业的合作方,它就很难在流程中有很多决定权了,所以如果直接面向终端客户市场,你对整个流程就有话语权了。
A:我们正在取得尽可能多的决定权。我们仍然希望与大型制药公司合作,他们知道我们的平台是已经由自有管线完成了验证,因此也更信任我们了。这就是一种竞争优势。很多初创公司可以提出很创新的想法去推动新药发现。但如果没有进入临床阶段的管线验证,大型药企不会真正踏入合作,他们只会觉得“想法不错,但我们自己也可以做。我们不再需要你了。”这种事经常发生,就像你带着一个想法去找到风险投资机构,机构也会亲自做一家参考这个想法的公司。但我们的想法是经过我们自己验证的,我们有自己的产品,更加让人信服。然而,由于验证一款新药能否做成所需的时间周期很长、资源很多,我们要攻克的进入壁垒也很高,难度远高于验证一套图像识别或语音识别的深度学习网络。
Q:英矽智能建立了哪些可以沿用的经验?未来还将主动面对哪些风险?
A:公司现在的状态让我感到比较从容。安迪·格罗夫的自传《只有偏执狂才能生存》给我小时候留下很深刻的印象,他曾是英特尔的一任CEO。如今他们已经不再偏执,但(商业)状况也不尽如人意了。而我前所未有地感到我们做得已经很不错了,以至于我有点担心我们是不是有什么没有考虑到的。
英矽智能发展到了一个风险可控的阶段。我们有由我带领建设的AI药物发现软件平台,任博士牵头的药物研发业务也有巨大的价值。理论上我们沿着这些模式发展就好了,但这不是Insilico的企业文化。
所以我们正在建立智能机器人实验室。我们希望用自动化、智能化、机器人等跨界融合技术去加速新靶点发现、验证的过程。我们建立了一个人工智能大脑,用积累的数据训练它,让它在高通量、高功率的实验室环境中创建更多用于训练的数据,同时也在此过程中发现新药靶点。这个实验室不久将在苏州落成,它可能是全球最复杂的靶点发现的实验室。但我们并不是在押注于这个实验室,公司现在有稳定的商业模式。
如果要说到我个人最感兴趣的增长点,那可能是双效靶点的新药发现,也就是同时治疗疾病与衰老的疗法。现有的很多治疗方法只能尽可能延长生存期,并不能真正拯救生命。但如果我们的疗法在治疗癌症、糖尿病或中枢神经疾病等的同时,也治疗基本的衰老路径,患者的获益是最大的。即使病人体内没有100%对药物进行应答,没能治愈某种疾病,但这种药物仍然可以改善衰老机制,患者也因此延长了生命。今年早些时候,我们将这一双效靶点发现的想法发表在Aging上,在抗衰老研究领域,我们是领先的公司。
我认为抗衰老的研究的参与度和影响力在未来会爆发。2014年是,我创立了ARDD(Aging Research for Drug Discovery),如今它成了全球最大的抗衰老研究大会。一些政府已经在鼓励抗衰老相关的研究,例如沙特阿拉伯最近宣布每年将提供10亿美元的研究经费以支持抗衰老研究;美国已经将此类科研经费支持提高至每年40亿美元。
对Insilico来说,第三块要推进的业务是AI底层技术的创新。我对多模态模型(Multi-modal transformers)非常感兴趣,这是一种新的技术,就好比你可以通过文本利用AI去生产出画作。
Q:社交媒体上已经有很多用AI生成的很棒的图片,有了AI我们可以媲美大艺术家。
A:的确,现在也许每月花10美元,你就可以生产出胜过米开朗基罗的艺术作品。有人说艺术无法被AI所替代,但现在AI已经做到了。AI越是能做好某种任务,越容易在其他任务中表现得出色。同样,我们想让AI把生物学和化学模型统筹起来,并形成大规模的训练。
△ AI艺术作品「太空歌剧院」,由Midjourney AI生成,美国科罗拉多州博览会上的艺术比赛数字艺术类的第一名,来源:网络