当前位置：首页>深圳>深圳实习|字节跳动招实习(27届可转正)飞书AI质量研发岗位 |500-510元/天

深圳实习|字节跳动招实习(27届可转正)飞书AI质量研发岗位 |500-510元/天

2026-06-08 07:22:03

✨职位信息概览

字节跳动招4个月实习（27届可转正）飞书AI质量研发岗位，500-510元/天，工作地址：深圳南山区深圳湾创新科技中心T2栋，面向本科及以上学历在读毕业生

📋岗位职责

参与飞书 AI Harness 质量系统的构建与演进，围绕服务端、Web 端、移动端及 AI 相关能力，建设面向真实业务场景的自动化验证、评测执行、结果分析与质量闭环能力
参与团队 AI 质量体系与工程体系建设，包括但不限于：自动化评测、流程验证、持续集成、上线准入与质量门禁等
面向 AI 场景设计质量方案，覆盖结果质量、过程质量与系统稳定性，提升问题发现效率与质量反馈速度
参与线上问题追踪、归因分析与质量数据建设，推动问题从发现、定位到修复验证的闭环提效
参与通用质量工具、评测脚本与效率平台建设，提升团队在复杂业务和 AI 场景下的验证效率

✅任职要求

2027 届本科及以上学历在读，计算机、软件工程、人工智能、自动化等相关专业优先
熟练使用至少一种 AI 编程工具，包含但不限于 Claude、Codex、TRAE 等，能够将 AI 能力应用于自动化验证、评测脚本开发、问题分析与质量效率优化等场景
具备基础的编程能力，至少熟悉一门常用开发语言，包括但不限于 Python、Golang、Java、C/C++ 等
具备扎实的计算机基础知识，了解网络通信基础，包括 TCP/IP、HTTP 等常见协议
对 AI 产品质量、自动化验证、评测体系或工程效率方向有兴趣，理解除"结果是否正确"之外，还需要关注"过程是否可控、系统是否稳定、反馈是否高效"
了解常见的自动化方法、数据驱动验证思路或持续集成流程
了解常见算法评测方法与客观评估指标
具备良好的问题分析与协作能力，能够从业务、流程与系统多个层面推动质量与效率持续优化

加分项：

有脚本开发、工具开发或工程实践经验
有质量工具、评测平台、自动化流程或工程效率建设经验
有大模型、搜索、NLP、语音、多模态等相关评测经验

📸招聘详情

💡应聘技术问题

问题："请描述 TCP 三次握手的过程，并说明在自动化测试中如何模拟网络异常场景来验证系统的容错能力？"

参考答案:

TCP 三次握手：客户端发 SYN 包，服务端回 SYN+ACK，客户端再发 ACK 确认连接建立。这三次交互确保双方都能收发数据，同时同步了各自的初始序列号。

测试中模拟网络异常，有几种常见做法：

用 mitmproxy、Charles 这类代理工具拦截请求，手动注入超时、丢包、乱序等异常
用 Python 的 scapy 库直接构造畸形数据包
在容器或虚拟机里用 tc、iptables 做流量控制，限制带宽、加延迟、设丢包率
在 CI 里跑 Chaos Mesh 这类混沌工程工具，做系统级故障注入

容错验证的重点：重试逻辑是否正常、超时有没有兜底、熔断器是否按阈值触发、错误日志能不能溯源。

问题："你了解哪些大模型输出的评测指标？如果让你设计飞书 AI 助手回答质量的评测方案，你会怎么做？"

参考答案:

常用的自动评测指标有 BLEU（n-gram 匹配度）、ROUGE（召回率导向）、BERTScore（语义相似度）、Perplexity（模型困惑度）。还有 LLM-as-Judge 方法——用更强的模型给输出打分，评估准确性、安全性等。人工评估一般作为最终标尺。

飞书 AI 助手的评测方案，我会这样搭建：

先建评测数据集：从真实用户 query 中采样，按场景（问答、总结、翻译、写邮件等）分类，每个场景覆盖典型 case 和边界 case
定评测维度：准确率、相关度、完整度、安全性、响应延迟
跑自动评测：脚本批量调接口，自动指标 + LLM-as-Judge 联合打分
做回归：模型每次迭代后跑同一套评测集，对比分数变化，防止退化
建线上监控：对真实请求做抽样评测，搭个 dashboard 看趋势

问题："用 Python 写一个 HTTP 接口自动化测试脚本，能够断言响应状态码和返回数据的关键字段。"

参考答案:

import requestsimport pytestBASE_URL = "https://api.example.com"deftest_get_user_info():    response = requests.get(f"{BASE_URL}/users/1", timeout=10)assert response.status_code == 200, f"期望200，实际{response.status_code}"    data = response.json()assert"id"in data, "返回数据缺少id字段"assert"name"in data, "返回数据缺少name字段"assert data["id"] == 1assertisinstance(data["name"], str) andlen(data["name"]) > 0deftest_create_user():    payload = {"name": "test_user", "email": "test@example.com"}    response = requests.post(f"{BASE_URL}/users", json=payload, timeout=10)assert response.status_code == 201    data = response.json()assert data["name"] == "test_user"assert data["email"] == "test@example.com"if __name__ == "__main__":    pytest.main([__file__, "-v"])

requests 负责发请求、拿响应，assert 做断言。用 pytest 跑的话可以直接接到 CI 流水线里。

问题："说说你之前做过的一个跟质量保障或工具开发相关的项目，遇到了什么难点，怎么解决的？"

参考答案:

建议用 STAR 结构组织回答：

先交代背景，比如在课程项目或实习中负责某模块的质量保障。然后说清楚当时面临什么问题——接口太多手工回归跑不过来、覆盖率一直上不去之类。接着讲你具体做了什么，搭了什么框架、写了哪些用例、怎么接到 CI 里的、中间做了什么取舍。最后用数字说话——回归时间缩短了多少、发现了几个线上问题、覆盖率从多少提到多少。

面试官想听的是你做决策的过程，哪怕结果不完美也无所谓。

问题："飞书文档的 AI 总结功能上线后，用户反馈总结内容偶尔出现事实错误。作为质量工程师，你会如何排查和建立长效验证机制？"

参考答案:

排查步骤：

先看有没有规律：特定文档类型、长度、语言更容易出错，还是随机分布
收集问题 case，分清错误类型：是凭空编造了内容，还是漏掉了关键点，还是把不同段落的上下文搞混了
查上游：文档解析是否完整、分段是否合理、prompt 有没有歧义
对比模型版本，确认是不是某次更新引入的退化

长效机制：

建总结质量评测集：人工标注一批参考总结，覆盖不同文档类型和长度档位
自动评测 pipeline：每次模型迭代后自动跑评测集，多维度打分
加 factual consistency 检测：用 NLI 模型判断总结内容是否跟原文矛盾
线上监控：用户反馈按标签分类（事实错误、遗漏、冗余），按维度追踪趋势
定期人工抽检，校准自动评测的准确性

🎯应聘面试准备

问：想应聘上述岗位，需要做哪些准备？

答：

简历优化

1.核心信息前置

学历背景：
本科及以上在读，计算机、软件工程、人工智能、自动化等相关专业
工作经验：
有脚本开发、工具开发或工程实践经验的优先展示
技术栈：
Python/Golang/Java + AI工具使用经验（Claude、Codex、TRAE等）
意向岗位：
AI质量研发实习生（飞书）

2.匹配岗位关键词

技术栈：
Python、Golang、Java、C/C++
工程能力：
自动化测试、持续集成、质量门禁、上线准入
工具与平台：
Claude、Codex、TRAE、CI/CD工具链
能力标签：
AI评测、自动化验证、问题归因分析、质量数据建设

技能梳理

编程基础： 熟练掌握至少一门语言（Python优先），了解 TCP/IP、HTTP 协议，能用 Python 写脚本和工具。

AI工具使用： 用过 Claude、Codex、TRAE 等工具，能把它融入工作流提升效率，有实际用它写脚本、做分析的经历。

质量工程： 了解自动化测试的基本类型（单元测试、接口测试、端到端测试），理解 CI/CD 流程，知道质量门禁和上线准入是什么。

AI评测： 了解大模型常用评测指标（BLEU、ROUGE、Perplexity等），理解"评测"和"测试"在概念上的区别。

面试准备

经典问题

TCP 三次握手和四次挥手有什么区别？HTTP 和 HTTPS 有什么不同？
Python 的 GIL 是什么？多线程和多进程各自适合什么场景？
什么是 CI/CD？你用过哪些 CI 工具？

系统设计

如何设计一个大模型输出质量的自动化评测系统？
给一个 AI 功能设计回归测试方案，你会考虑哪些维度？
线上出现偶发性 bug，怎么设计监控和追踪方案？

项目经验准备

准备1-2个核心项目的详细介绍，包括：

项目背景和目标
使用的技术和方法
遇到的挑战和解决方案
项目成果和收获

准备使用 AI 工具辅助开发的实际案例
准备自动化测试或质量工具相关的实践经历

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

深圳实习|字节跳动招实习(27届可转正)飞书AI质量研发岗位 |500-510元/天

✨职位信息概览

📋岗位职责

✅任职要求

📸招聘详情

💡应聘技术问题

问题："请描述 TCP 三次握手的过程，并说明在自动化测试中如何模拟网络异常场景来验证系统的容错能力？"

问题："你了解哪些大模型输出的评测指标？如果让你设计飞书 AI 助手回答质量的评测方案，你会怎么做？"

问题："用 Python 写一个 HTTP 接口自动化测试脚本，能够断言响应状态码和返回数据的关键字段。"

问题："说说你之前做过的一个跟质量保障或工具开发相关的项目，遇到了什么难点，怎么解决的？"

问题："飞书文档的 AI 总结功能上线后，用户反馈总结内容偶尔出现事实错误。作为质量工程师，你会如何排查和建立长效验证机制？"

🎯应聘面试准备

简历优化

1.核心信息前置

2.匹配岗位关键词

技能梳理

面试准备

经典问题

系统设计

项目经验准备

最新文章

热门文章

随机文章

深圳实习|字节跳动招实习(27届可转正)飞书AI质量研发岗位 |500-510元/天

✨职位信息概览

📋岗位职责

✅任职要求

📸招聘详情

💡应聘技术问题

问题："请描述 TCP 三次握手的过程，并说明在自动化测试中如何模拟网络异常场景来验证系统的容错能力？"

问题："你了解哪些大模型输出的评测指标？如果让你设计飞书 AI 助手回答质量的评测方案，你会怎么做？"

问题："用 Python 写一个 HTTP 接口自动化测试脚本，能够断言响应状态码和返回数据的关键字段。"

问题："说说你之前做过的一个跟质量保障或工具开发相关的项目，遇到了什么难点，怎么解决的？"

问题："飞书文档的 AI 总结功能上线后，用户反馈总结内容偶尔出现事实错误。作为质量工程师，你会如何排查和建立长效验证机制？"

🎯应聘面试准备

简历优化

1.核心信息前置

2.匹配岗位关键词

技能梳理

面试准备

经典问题

系统设计

项目经验准备

文博会丨吉视传媒数字科技成果亮相深圳文博会

深圳兼职丨日结240/天+餐,5.30号已更新

最新文章

热门文章

随机文章