在当今社会,人们对健康的关注度日益提升,健康已成为生活中不可或缺的核心话题。从日常健康维护到疾病的早期筛查与精准治疗,人们不再满足于传统医疗服务,而是渴望借助更先进的技术手段,实现高效、精准且个性化的健康管理。AI技术的飞速发展,为这一需求带来了前所未有的变革机遇。
近期,科大讯飞推出的星火医疗大模型 X1,为个性化健康管理和医疗咨询带来了新的可能性。这一模型的推出,标志着AI技术在医疗健康领域的应用又迈出了重要一步。
目前,生成式AI行业正从训练阶段向大规模推理和应用转型,DeepSeek等模型的火热出圈就是最好的例证。而当大规模推理模型与健康医疗领域结合时,无疑让人充满期待。
具体来说,用户现在可以在科大讯飞推出的首款面向居民的AI健康助手应用——讯飞晓医中,体验到星火医疗大模型 X1 的强大功能。该模型进一步提升了多步循证推理能力,为用户提供更加个性化、专业且实用的健康咨询服务。
那么,星火医疗大模型 X1 加持后的讯飞晓医,实际体验究竟如何呢?今天,就让我们通过一系列测试来一探究竟。
一、深度分析能力测试
对于普通消费者而言,使用AI辅助健康管理和咨询时,最关注的无疑是AI模型的专业性——它提供的信息是否专业、可信。此外,产品是否好用、实用,能否给出切实可行的医疗建议,也是重要的考量因素。同时,AI还需要了解用户的长期健康状况,从而提供个性化的服务。
这些因素,正是我们在评判AI大模型在健康医疗领域服务能力时需要重点关注的要点。
接下来,我们通过一些具体问题进行测试,看看讯飞晓医在面对医疗和健康问题时的表现。
测试前需要说明的是,我们将分别在开启和关闭星火医疗大模型 X1 的情况下进行测试,以便更直观地感受大模型 X1 对讯飞晓医寻医问诊体验的改变。
首先,我们提出了一个问题:血栓患者服用利伐沙班一年了,能否长期服用?会对身体产生什么影响?
在开启星火医疗大模型 X1 的情况下,讯飞晓医仅用 15 秒就给出了回答。它不仅查看了用户的病史档案,还分析了利伐沙班的药理,并结合药理、病史和用药史,对药物相互作用和长期用药问题进行了详细分析,整个逻辑链条清晰连贯。
回答内容条理清晰,不仅给出了利伐沙班的适应症、疗程和长期使用风险监测等信息,还主动提出了药物相互作用的参考建议。此外,讯飞晓医还针对用户的个体情况,提出了针对性的血栓治疗建议,考虑到了用户病史中的高血脂和脂肪肝等风险因素,并给出了日常管理建议。
可以看出,讯飞晓医的回答在专业性和实用性上表现出色,其全面的逻辑思考令人惊艳,不仅考虑到了问题中提到的因素,还涵盖了未提及的内容,并给出了相应的医学建议。
值得一提的是,讯飞晓医还识别到用户可能患有血栓,并主动建议将其添加到既往病史中,完善健康档案,这一细节体现了其贴心之处。
随后,我们将大模型 X1 关闭,再次提出相同的问题。
这一次,讯飞晓医的回答缺乏细致的思考推理过程,仅结合用户档案和两篇医学知识,给出了较为宽泛的参考信息。虽然答案正确且具有一定的参考价值,但在实用性和个性化方面,明显不如开启大模型 X1 时的回答。
接着,我们提出了第二个问题:几天来偶尔出现头晕,但没有旋转感、恶心、呕吐、视力模糊或走路不稳等其他症状,该如何缓解?
在未开启大模型 X1 的情况下,讯飞晓医主要参考了丁香医生的一篇医学知识,提示头晕可能由低血压、贫血或耳内平衡器官问题引起,并给出了生活调理、物理治疗和药物治疗三方面的建议,具有一定参考价值。
开启大模型 X1 后,讯飞晓医结合用户的病史和手术史进行了详细分析,考虑到了高血脂和脂肪肝可能间接导致的头晕症状,并给出了针对性的缓解建议,如控制血脂、少吃高油脂食物等。此外,还提出了医学监测和干预建议,以及药物缓解建议,甚至提示了就医指征,建议用户完善相关检查以排除病因。
最后,我们提出了第三个问题:手部和脚腕部出现极痒疹子,越挠越痒,5~6 天后逐渐老化,但会留下一个小硬包,已有半个月了,这是什么原因?该如何处理?
在开启大模型 X1 的情况下,讯飞晓医通过逐步分析症状,排除各种可能因素,最终给出了详细的回答。它不仅列出了最可能的诱因,还从急性止痒、外用药物和生活方式干预三个方面给出了具体建议,并提醒用户警惕自行使用强效激素或偏方。
关闭大模型 X1 后,讯飞晓医则需要通过多轮追问来获取更多细节信息,最终给出的分析结果与开启大模型 X1 时相似,但在知识全面性上有所不足。
总体而言,开启星火医疗大模型 X1 后的讯飞晓医,更像是一个真实的私人医生,能够根据用户的健康档案,提供个性化的健康管理建议。而关闭大模型 X1 后的讯飞晓医,则更像是一个知识渊博的人,根据现有资料为用户答疑解惑。
在体验过程中,我们基本没有遇到大模型医疗幻觉的问题。讯飞晓医在回答复杂问题时,能够像真实医生一样逐步解释循证,展现出高度的逻辑正确性、专业性和可解释性。
二、多模态解读报告单、医学影像能力测试
除了日常的健康管理问题,很多人在体检后拿到报告单时,往往会被其中的专业术语弄得一头雾水。此时,一个专业的健康助手显得尤为重要。那么,AI能否胜任这一角色呢?我们进行了相关测试。
首先,我们在讯飞晓医中上传了一张 PDF 体检报告单。解读完成后,讯飞晓医给出了非常丰富的解读内容。它不仅准确判断出报告中的异常指标,还针对每一项异常指标进行了医学原理解读和就医指导,并根据异常项目的严重程度,区分了“立即就诊”“定期复查”和“日常关注”三个类别。
此外,讯飞晓医还根据报告的异常指标,给出了用户在日常生活中需要关注的饮食和运动建议。整体来说,解读内容专业且详尽。
不仅如此,讯飞晓医还提供了找医院的选项,用户可以轻松找到本地评价较高的医院。
在测试过程中,我们还好奇其他热门大模型如 DeepSeek 和 GPT-o1 的表现如何,于是将同样的问题抛给它们进行对比。
结果显示,DeepSeek 的解读结果较为简单,虽然提炼出了核心异常指标并给出了健康管理建议,但在专业性上不如讯飞晓医。GPT-o1 的表现与 DeepSeek 类似,虽然异常项目判断较为全面,但整体上仍不如讯飞晓医专业和详尽。
很多时候,用户拿到的报告单可能不止一份,且彼此之间存在关联。我们测试了讯飞晓医是否能够同时解读两张报告单并进行分析。
测试时,我们将一份血液常规报告单和一份腹部 B 超影像同时上传给讯飞晓医。结果显示,讯飞晓医不仅清晰列出了血液检测中的异常项目,还识别出了腹部 B 超报告中的中度脂肪肝和胆囊多发结石问题,并给出了针对性的应对建议,其中包括针对个人病史的专门建议,非常实用。
相比之下,DeepSeek 的解读不够清晰直观,无法结合用户病史档案进行分析,实用性稍低。GPT-o1 虽然能找出异常项目,但整体实用性与 DeepSeek 相当。
接着,我们从最近一次血常规检测中选取了两项异常指标,让讯飞晓医进行分析。结果显示,讯飞晓医的回答专业且准确,与医生的解释一致。
DeepSeek 的回答同样专业且全面,但无法像讯飞晓医那样根据用户健康档案提供个性化建议。
最后,我们上传了两张不同时间拍摄的甲状腺彩超报告单照片,考验大模型的时序对比解读能力。
讯飞晓医将报告单中的医学指标整理成图表,清晰展示了指标的变化情况。它准确判断出甲状腺左叶低回声结节有所增大,但恶性风险较低,并给出了定期复查的建议。
DeepSeek 虽然也能给出准确判断,但不如讯