今年春天,深圳法院的人工智能辅助审判系统迎来了高光时刻。
3月,最高人民法院院长张军在两会的工作报告中点名介绍这套系统,宣布以此为基础形成的全国试用智审系统已在23家法院开展试点。4月,广东省人工智能应用对接大会上,深圳中院党组副书记、副院长邝肖华宣布,该系统已经深度赋能超过60万件案件的审理,并且将由最高法牵头全国推广。
这套系统,正在解决“案多人少”这个困扰中国法院系统多年的结构性问题。从这个角度看,深圳的行为不是一次锦上添花的技术升级,而是一个被现实压力催熟的解法。
但效率从来不是司法系统唯一的考量。
当一套系统介入到立案、阅卷、庭审、文书生成的每一个环节时,它带来的影响也不会只停留在省时间这一层。
单从效率这方面看,深圳法院交出了一份相当华丽的成绩单。
辅助判案系统上线近两年,深圳法院的案件上诉率、一审发改率同比分别下降35.1%和33.3%,达到了近十年最低水平。2025年深圳法院法官人均结案744件,同比增加249件,居全省第一。
与此同时,在国际层面受到的关注也确实热烈。深圳新闻网报道,自系统上线以来,全国170多家单位前来学习,越南、葡萄牙、新加坡等16个国家以及港澳地区的司法和行政部门来深考察。香港中文大学(深圳)副校长、工程院院士罗智泉评价,它不仅在司法审判领域是领先的,在全国各行业场景上也是领先的。
美国新罕布什尔大学发表的一篇对比研究,更是把深圳法院称为世界上第一个例行性、大规模使用生成式AI进行裁判的法院。在全球范围内,将生成式AI部署到司法审判全流程、且达到这种规模的法院系统,目前确实只有深圳一家。
从两会上最高法的政治背书,到国际同行的密集关注,再到清晰的全国推广路线,深圳这套系统看起来几乎无懈可击,并且一马当先地快速发展。
但要真正理解这个系统,以及它带来的争议,还是要从它的设计逻辑说起。
2023年立项时,深圳中院做了一件有意思的事情。
他们没有把研发全权交给技术公司,而是从全市法院抽调了12名专职法官和法官助理作为研发团队的主导,让法官来当产品经理。
而之所以这么做,深圳自然也有自己的考量。
审判经验里有大量隐性知识,是技术公司闭门造车做不出来的。哪些证据材料应当被重点关注?哪些表述意味着争议焦点的转移?哪些类案的引用是合理的,哪些其实是误导性的?这些判断逻辑并不在法条里,而在法官的日常工作里。更准确地说,是在法官的脑子里。
而法官们的工作,就是把这些隐性的审判经验翻译成AI可以执行的算法。深圳中院破产法庭法官助理、推进办业务总监孟天一在接受采访时描述:“我们把审判业务标准以及法官思维、专业步骤,通过指令的方式给到模型,这样模型才能更好地辅助法官执行各项任务。”
最终,整个审判流程拆解成 85 个具体节点,覆盖从立案、阅卷、庭审到文书生成的全流程。
而这套模式的技术底座法信法律基座大模型,它的训练语料是3.2亿篇、3.67万亿字的法律文献、裁判、案例和观点。考虑到2024年1月之后,裁判文书库已经转为法院内部专网使用,商业公司基本拿不到同等规模的数据,这确实是垂直模型在法律领域最有说服力的护城河。
同时,这套设计的关键约束在于,每个节点都设置了审核、确认、决定选项,需要法官一一勾选确认才能推进。深圳法院法官孟天一在采访中介绍:“人工智能介入审判工作,这个情形是不存在的,每个环节都是人来做出决定。”
技术专家和法律专家共同把关,AI只起辅助作用,听起来确实是相当稳妥且滴水不漏的设计思路。
但形式上没有破绽,不等于实际上没有问题。
在深圳法院和最高法的相关报道里,总会提起这个系统被“哈佛大学法律分析杂志专题研究”,以此作为系统获得国际学术界认可的佐证。
但学术期刊专题研究,和学术期刊背书并不是一个概念。如果真的有人仔细读完这篇长达25页的论文,会发现作者反复论证的其实是另一件事:
这套模式,可能在无意中放大司法决策里的错误和偏见。
按照深圳法院公开披露的工作流,在法官做出第一次判断之前,系统已经对相关资料做了预处理,替法官把案件材料做好摘要,归纳争议焦点,并把相关类案和法条都放在屏幕上等他过目。
看似高效的工作流里,隐藏着难以察觉的第一层风险。AI 不需要替人做决定,只要在人思考之前把信息摆出来,就足以影响判断的方向,学术界把这种现象叫做自动化偏见。
美国的COMPAS系统就是现成的前车之鉴。这个系统主要用于预测被告的再犯风险,已经被多个州的法院采纳部署。尽管这个算法的准确率只有65%左右,和外行盲猜的结果差不多。但研究发现,法官在量刑过程中仍然高度依赖系统的打分结果,甚至据此改变原有的判断。
回到孟天一那句话:每个环节都是人来做出决定。但这只意味着最终由人按下确认按钮,在点击之前,人就已经潜移默化地受到了AI的影响。
而在法官形成初判之后,要把这个判断输入智能文书辅助生成模块,由AI生成裁判文书的草稿。这个环节,也是第二重风险的入口。
上海交通大学凯原法学院教授李学尧在2025年的一系列实验中,揭示了一个比自动化偏见更隐蔽的机制。他们让法官先对案件形成初步判断,然后由AI根据法官的判断生成裁判理由。
实验结果显示,相比于法官自己撰写裁判文书的对照组,使用AI辅助的实验组更容易固化原有的判断倾向。
换句话说:
AI生成的理由不是在检验法官的结果,而是在强化法官的观点。
具体到判决书的形成过程上来看,法官根据AI推送的类案和争议焦点,形成了一个偏向某一方的初判。AI援引支持该方向的类案,组织成一份说理充分的判决书草稿。至此,法官本来可能还有的犹豫也就此消失了,既然AI都觉得没问题,那应该就没错。
前后夹击之下,法官真正独立判断的空间被压得很薄。
回到开头提到那个数字,人均结案744,平均每个工作日3 件。在这个节奏下,法官真正能用来独立审视一份AI草稿的时间,还足够吗?
但这些风险的存在,并不构成不做这件事的理由。
法律领域的AI应用是一个全球性的开放问题,自开始探索以来,还没有哪个国家能给出完美答案。美国的COMPAS出过偏见争议,欧盟的AI Act把司法AI列为高风险类别需要强制性合规评估。所有这些都说明,把AI用进司法系统,是一件需要持续摸索的事情。
罗智泉院士说深圳系统领先,指在这个国际国内都没有成熟答案的领域,深圳法院愿意先把系统部署到60万件真实案件中去,展现的是一种愿意承担的姿态。
但要让这套系统真正走得远,下一步可能不是更快地推广,而是更细地审视。系统的准确率到底是多少?在不同案件类型上的表现差异有多大?AI生成的草稿和法官最终修改后的判决之间,差异程度的分布是怎样的?更重要的是,法官是否在逐渐对AI输出形成路径依赖?
这些问题,目前公开的资料里都还没有系统性的答案。
744这个数字确实让人欣慰,因为它意味着更多的纠纷能更早画上句号。但同样是这个数字背后的系统,值得我们持续追问的,不是它跑得多快,而是它跑得对不对。
责编 / 吴梦奇Scott
编辑 / 顾文倩Aro
分类 / 原创