
编者按:司法AI的讨论常陷于“机器能否替代法官”的虚焦。本文以深圳法院真实系统为样本,揭示一条更隐蔽的路径:法官先判断,AI后说理,再修改。机器未坐上审判席,却帮法官归纳争点、生成裁判理由。核心风险不是幻觉,而是“偏见回声”:AI将初步判断包装成顺滑说理,让错误更难被发现。这篇拆解工作流的文章,值得每一位关心司法数字化的人细读。
我最近读到一篇很值得看的论文。
它讲的不是 AI(人工智能)能不能通过法考,也不是 AI 能不能写一份像样的法律意见。它讲的是一个更具体的问题:在真实法院里,法官到底怎么用大语言模型?
论文研究对象是深圳法院系统的智能裁判系统。这个案例有意思,因为它不是某个法官偷偷拿 ChatGPT 写几段判决理由,也不是法院宣传片里那种抽象的“智慧法院”。它是一个法院系统,把大语言模型嵌进了民商事审判流程。
本文主要依据:
John Zhuang Liu & Xueyao Li, How do judges use large language models? Evidence from Shenzhen, Journal of Legal Analysis, Volume 16, Issue 1, 2024, Pages 235-262, published online 2 January 2025, DOI: https://doi.org/10.1093/jla/laae009。
我同时参考了中文译本。该译本注明由机器翻译生成,所以涉及论文原意、标题、作者、刊物和页码,我以 Oxford Academic 页面和英文原文信息为准。
这篇论文最重要的一句话,可以压缩成九个字:
法官先判断,AI 后说理。
再加一段:
法官再修改。
这个顺序很关键。很多人讨论司法 AI 时,脑子里会冒出一个“机器法官”的形象,好像 AI 坐在审判席上,读完材料,然后宣布谁赢谁输。深圳实践不是这样。AI 没有直接裁判案件。它更多是在法官已经形成初步判断以后,帮法官把裁判理由写出来。
这才是这篇论文真正有价值的地方。它没有停在“AI 能不能审案”这种空问题上,而是把真实工作流拆开给我们看。
01|深圳法院为什么要做这套系统
论文写到,深圳市中级人民法院在 2023 年启动智能裁判系统项目,与面壁智能合作开发法院专用大语言模型。系统在 2024 年 6 月 26 日上线,主要用于深圳两级法院的民事、商事案件。
背景很直接:案多人少。
2023 年,深圳法院系统处理大约 30.8 万件案件,其中约 28.7 万件是民商事案件。一线民商事法官平均每年要处理 400 件以上案件。
这个工作量放在任何一个认真写过法律文书的人面前,都能感受到压力。一个案件不是只看一遍起诉状、敲几段模板就结束。法官要看证据、归纳争点、组织庭审、判断事实、适用法律、写裁判理由。越是民商事案件,越容易在合同文本、交易背景、证据链条和当事人陈述里绕来绕去。
深圳法院希望用 AI 提高文书生成效率,减轻法官工作负担。这一点不神秘,也不浪漫。它的起点是生产压力。
系统底层模型的训练材料包括中国法律、法院裁判文书和学术文献,训练语料规模约两万亿汉字。论文说,它的参数规模大致与 GPT-3.5 相当。这个模型不开源,只在深圳法院系统内部使用。
这也说明,深圳实践不是法官把案卷丢给公共聊天机器人。它更像是一个法院和技术公司共同打造的内部系统,目标很窄:服务裁判文书生产。
02|这套系统主要做三件事
论文把深圳智能裁判系统的功能概括为三类。
一类是归纳案件事实和争议焦点。系统可以从起诉状、答辩状、证据材料里提取事实,归纳双方到底争什么。这个功能听起来平平无奇,但对法官很重要。很多案件的麻烦不在法律规则多复杂,而在材料乱、表达乱、当事人各说各话。先把事实和争点洗出来,后面的判断才有入口。
一类是给庭审提供问题提示。系统可以根据案件类型、事实和争议焦点,生成法官庭审时可以询问的问题。对年轻法官或者刚接触某类案件的法官来说,这个功能可能很有用。庭审提问不是聊天,问题问错了,证据链就断在那儿;问题问少了,案情就留空;问题问散了,庭审就变成各方自由发言。
还有一类,是生成裁判说理和裁判文书。这是核心。系统不是自己决定支持原告还是支持被告。它是在法官已经对某个争议焦点作出初步判断之后,围绕这个判断生成裁判理由。也就是说,AI 的主要工作不在“判”,在“写为什么这么判”。
这一点会改变我们对司法 AI 的理解。过去很多智慧法院系统更像自动填表和模板生成。比如小额贷款、信用卡纠纷、消费金融案件,系统帮忙算利息、填模板、套文书。深圳这套系统往前走了一步,它已经进入裁判理由这一层。
裁判理由不是文书装饰。它是司法判断对外可见的部分。法院为什么认定这个事实,为什么采信这个证据,为什么适用这个规则,为什么支持这个请求,都要在理由里展开。所以,AI 一旦进入“本院认为”这一段,它就已经进入司法决策的核心周边。
03|法官和 AI 的真实互动
论文把真实场景下的法官和 AI 互动拆成四步。
(一)法官根据证据和庭审查明案件事实。
(二)法官识别争议焦点,并对每个争议焦点作出初步判断。
(三)AI 根据法官的初步判断和已查明事实生成裁判说理。
(四)法官审阅、修改 AI 生成的说理,形成最终判决。
这套流程可以再压缩:
法官定方向,AI 写理由,法官再修订。
我觉得这比“AI 会不会取代法官”的讨论更接近现实。法院不可能轻易接受机器直接裁判案件。司法责任要落在人身上。哪怕技术再强,最终签发判决书的也必须是法官。公众也很难接受一个完全由机器作出的司法决定。所以,AI 在司法里的现实形态,大概率不会是“替代法官”。它会嵌在法官工作流里,帮法官完成一部分认知和表达任务。
这也更危险。如果 AI 直接替法官作出结论,风险很显眼,所有人都会盯着它。但如果 AI 只是帮法官把已有结论写得更像一个充分论证过的判断,风险会藏得更深。
04|那个股东出资纠纷案例
论文举了一个真实判决案例,能看出 AI 到底怎么工作。
案件大意是:X 公司破产后,破产管理人起诉五名股东,要求追缴未缴出资。争议焦点之一是,公司 E 是否已经向 X 公司实际缴纳一千万元注册资本。
AI 将第一个争点概括为:公司 E 是否已经实缴 1000 万元注册资本。
法官选择“否”。
然后 AI 开始生成裁判说理。它引用《企业破产法》第三十五条,结合资金转入后又迅速流出、资金用途不明、被告没有证明已经履行出资义务等事实,组织出一段支持法官判断的理由。
论文作者认为,这段说理总体能把事实、法律和结论连起来,法条引用也没有明显错误。
但它不是完美的。
第一版推理里,有一处逻辑表达不清。法官后来重新表述争点,让 AI 再生成一次。第二版推理更清楚,也修正了部分不一致。最终判决里,法官又加入了更具体的事实分析,比如资金流向关联公司、没有偿还借款、不符合正常交易习惯、管理人无法取得财务账册、出资核验报告形成时间异常等。
这说明最终判决不是 AI 原文照搬。它是三件事叠在一起:法官先判断,AI 生成理由,法官再把理由改成可以进判决书的版本。这套流程看上去很合理。法官掌握方向,AI 提供草稿,法官负责审查。很多律师日常用 AI 写文书,也是类似流程。
问题就在这里。这个流程越顺手,越容易让人忽略一个事实:AI 生成的是支持性理由。它不是中立地把双方最强论点都摆出来让法官重新想一遍。它是在法官已经选定方向之后,沿着这个方向搭桥。
05|这篇论文最有价值的概念:偏见回声
论文提出一个概念,叫 echoes of bias。
可以译成“偏见回声”。
传统讨论 AI 偏见,经常盯着训练数据和模型算法。比如模型是不是学到了性别偏见、地域偏见、阶层偏见,训练材料是不是本来就不干净。
这篇论文说,还有另一种偏见来源:人机互动本身。
深圳模式下,AI 不是先独立给出一个判断。它是在法官已经做出初步判断以后,生成支持这个判断的理由。
这会带来两个问题。
一个问题是选择性组织材料。AI 会从事实和法律中挑出更能支撑法官初步判断的部分,把它们组织成一套顺滑的说理。它未必编造事实,也未必引用假法条,但它会把材料排列成一个方向明确的论证。
另一个问题是减少法官自我纠错的机会。亲自写判决理由,本来就是一种反思机制。很多时候,一个判断在脑子里似乎成立,但写着写着就会发现写不下去。某个事实接不上,某个法律要件缺了一块,某个结论和前面的证据不匹配。写不出来,就是一个警报。
AI 把这段写作接过去以后,警报可能变弱。
尤其是当 AI 写得很流畅、很专业、很像判决书时,法官反而更容易觉得,自己的初步判断已经有了充分理由。
这就是偏见回声。
偏见不是 AI 创造的。偏见原来就在人的初步判断里。AI 的作用,是把这个判断包装成一段结构完整、表达专业、看起来很有道理的裁判说理。
所以,AI 越会写,未必越安全。
在这个场景里,模型能力越强,它越能把一个有问题的初步判断写得像没问题。
06|实验结果要谨慎看
论文没有停在理论上。作者还设计了一个法官实验,想看看 AI 是否会加剧司法偏见。
实验对象是 139 名中国法官,平均司法工作经验 16 年。实验案件改编自电车难题:货车刹车失灵,司机为了避免撞上前方三名骑行者,向右转向,结果撞死右侧应急车道上的一名骑行者。法官要判断司机构成交通肇事罪、故意杀人罪,还是紧急避险不构成犯罪。
实验设置了两个变量。
一个变量是有没有法外负面信息。处理组加入一段信息:被告涉嫌运送被拐卖儿童。这个信息和交通肇事案本身的刑事责任无关,但可能激发法官对被告的负面情绪。
另一个变量是有没有 AI 辅助。直接决策组里,法官读完材料后直接作出裁判。AI 辅助组里,法官先作出初步裁判,AI 根据初步裁判生成理由,法官再作最终裁判。
结果比较克制。
在定罪方面,法官的最终裁判没有受到法外因素的显著影响。不管有没有 AI 辅助,加入“涉嫌运送被拐卖儿童”这个信息,都没有显著提高有罪比例。
在量刑方面,出现了值得注意的差异。
没有 AI 辅助时,对照组平均刑期约 6.86 个月,处理组约 10.22 个月,差异不显著。
有 AI 辅助时,对照组平均刑期约 6.59 个月,处理组约 13.83 个月,差异达到统计显著。
这组数据很抓人,但不能把话说过头。
作者自己也很谨慎。AI 与处理因素的交互效应,在标准统计检验中不显著。换句话说,不能确定说“AI 加剧了偏见”。这个实验提供的是提示性证据,不是决定性证据。
我反而觉得,这种谨慎是论文的优点。
它没有把一个还不够硬的实验结果包装成惊悚结论。它真正完成的工作,是把一个值得长期追踪的问题提了出来:当 AI 总是围绕人的初步判断生成理由时,它会不会让人的错误更难被发现?
这个问题比一次实验结果更重要。
07|幻觉不是唯一风险
法律 AI 最常被讨论的问题是幻觉。
这个问题确实重要。法条编错、案例编假、法律规则说反,都可能造成严重后果。
深圳系统也做了两层控制。
技术上,它使用法律材料训练和微调,还结合检索增强生成。需要引用法律时,系统先从法律数据库检索已有条文,再把条文和案件事实结合起来生成推理。
流程上,法官可以指定法律依据。也就是说,模型不一定自己找法条,法官可以先把法律依据给它,让它围绕指定依据写理由。
这些做法能减少很多明显幻觉。
但论文提醒,细微幻觉仍然可能存在。尤其是 AI 不直接引用条文,而是概括法律原则、解释规则含义时,错误就可能混进去。
更麻烦的是,幻觉问题会和偏见回声叠加。
如果 AI 写出的错误理由刚好支持法官的初步判断,法官更可能放松审查。人天然更容易相信支持自己判断的信息。这个弱点不因为穿上法袍就消失。
所以,法院不能只问模型有没有幻觉。
还要问另一个问题:这个工作流是否鼓励确认偏误?
如果系统默认只生成支持法官初步判断的理由,那么即使每一句话都没有明显幻觉,它仍然可能让错误判断更稳固。
08|真正需要设计的是工作流
这篇论文的结尾提出了一个改进方向:让 AI 同时生成支持和反对法官初步判断的理由。
这个想法很朴素,也很难落实。
朴素在于,它正好对准确认偏误。法官选择一个方向以后,AI 不只帮他写“为什么对”,还要写“哪里可能不对”。这样法官在最终决定前,至少能看到反向论证。
难在于,法院用 AI 的重要动机就是提高效率。
如果系统每次都生成一大堆反方意见,法官要读的东西更多,工作量又回来了。法官可能觉得麻烦,干脆绕开这个流程。一个增加负担的风控机制,很容易在真实组织里被架空。
这也是司法 AI 最难的地方。
它不能只追求模型能力。模型能力越强,写出来的理由越漂亮,确认偏误反而可能更隐蔽。
它也不能只追求效率。效率越高,越可能把原本该慢下来反思的部分吞掉。
真正要设计的,是法官和 AI 的互动结构。
什么时候让法官先判断,什么时候让 AI 先列双方论点,什么时候强制生成反向理由,什么时候要求法官说明为什么不采纳反方观点,这些都不是技术细节。它们会直接影响裁判质量。
结论|机器没有坐上审判席,但已经坐到案头
读完这篇论文,我最强的感受是:司法 AI 的现实形态,比“机器法官”更普通,也更值得警惕。
机器没有坐上审判席。它坐到了法官案头。它帮法官读材料,归纳争点,提示庭审问题,生成裁判说理。它不签判决书,但它参与了判决书中最关键的那部分文字生成。
这件事不能简单说好,也不能简单说坏。
对案多人少的法院来说,它确实能提高效率。对年轻法官来说,它可能提供训练轮。对复杂案件来说,它可能提醒一些人会遗漏的细节。
但它带来的风险也更隐蔽。最大的风险未必是 AI 直接作出错误裁判。更可能是法官已经有了一个初步判断,AI 用高度专业、流畅、完整的说理,把这个判断变得更像正确答案。
以前,一个判断写不出来,法官可能会停下来重想。现在,AI 可以帮它写出来。这就是问题的起点。司法 AI 的监管,不能只盯着模型有没有编法条、有没有泄露数据、有没有替代法官。还要盯着它嵌入的流程。
谁先下判断?
AI 只写支持理由,还是也写反对理由?法官有没有被迫看见自己判断中最弱的那一环?最终责任当然归法官。但如果整个工作流都在帮一个初步判断寻找理由,责任机制就会被漂亮的文字慢慢稀释。AI 辅助审判真正的问题,不是机器会不会像人一样裁判。真正的问题是:人会不会因为机器太会写理由,而更难发现自己错了。

本文责编 ✎在逃小饼干
本期编辑 ✎小贤
法学学术、热点争鸣、交叉学科
请认准“青苗法鸣”微信公众号
青法学堂长期征稿启事
秉承“有问题,就搜青法学堂”理念。从专业学习、考试升学经验,到比赛训练、项目申报,再到求职经验、职场心得,全方位带动青年学人发挥“传帮带”作用。诚请大家惠赐优稿!
一、长期征稿:
1. 各类经验贴:如考研、法考、保研、外语学习、校园竞赛、求职实习等;
2. 学习心得类文章:如笔记方法、考点总结等;
3. 实务类文章:如办案手记、法律检索技巧等;
4. 信息整理类原创文章:如考研数据整理与分析、就业趋势判断等。
二、推荐选题:
1. 研究生选导师经验;
2. 课题申报、结项经验;
3. 模拟法庭、创新创业、科研立项等经验;
4. 实习投递经验、工作心得;
5. 毕业生选调、考公、律所/央企求职、面试经验;
6. 就业形势与职场新人思考感悟;
7. 保研夏令营、九推备战经验;
8. 考研公共课高分备考经验;
9. 考研保研数据及案例分析;
10. 出国留学申请、就读心得体会;
11. 专业学习、校园生活、期末考试逸闻趣事;
12. 本科生、研究生专业学习方法等。
长期收稿邮箱:qmfmbjb@163.com
稿酬等详情信息请见:2026年征稿启事
推荐阅读

联系我们
长期收稿邮箱:qmfmbjb@163.com
考试升学就业讲座咨询请添加:qfxzsggwx
商务合作请添加微信:zfm202416
笔记与商品:请搜“法鸣科技”小程序
