大模型测试技术与实践--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥21.56

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书共8章，第1章概述AI（Artificial Intelligence，人工智能）系统，介绍机器学习的模型和分类，以及AI系统对测试工程师“提出”的新问题等；第2章介绍数据的处理过程，以及数据的分组方法，详细介绍依托测试数据的测试评价方法；第3章讲解模型中超参数相关的概念，以及关于模型性能的评估指标，并介绍了较为主流的模型的基准测试；第4章重点介绍AI系统的测试用例设计方法，以及传统软件测试方法在AI系统测试中的应用，同时也介绍ChatGPT类应用中SSE（Server-Sent Events）协议的接口测试和LangSmith在测试过程中的使用方法；第5章介绍AI道德的验证，这也是大模型涌现后绝大多数大模型专家所关注的内容，该章重点介绍大模型的“道德”内容及验证方法；第6章介绍提示词工程和软件测试，我们既要能够测试大模型的应用，也要能够充分利用大模型完成测试工作，该章重点介绍通过提示词工程利用大模型完成测试工作的方法；第7章介绍智能化测试，通过学习开源的智能化测试工具及实践，读者可亲身体验智能化测试的好处；第8章介绍了从AI算法的智能化测试到大模型的智能化测试的转变的知识。本书内容通俗易懂、实例丰富，适合大模型开发者、软件测试人员，以及大模型爱好者阅读和学习。

作者简介

陈磊，曾任职京东测试架构师，阿里云有价值专家，华为云有价值专家，中国商业联合会互联网应用工作委员会智库专家，中关村智联软件服务业质量创新联盟软件测试标准化技术委员会委员，中移联合智库专家， Asian Journal of Physical Education & Computer Science in Sports 编委会委员、 EXIN DOM 。《接口测试方法论》、《持续测试》、《软件研发效能权威指南》《京东质量团队转型实践：从测试到测试开发的蜕变》、《软件研发行业创新实战案例解析》、《信创产品测试》作者，在极客时间开设过专栏“接口测试入门课”，在拉勾教育开设过“软件测试第一课”，担任过《软件研发质量管理体系白皮书》、《测试敏捷化白皮书》编委。具有多年质量工程技术实践经验，精通研发效能提升、手工测试团队自动化测试转型实践、智能化测试等，公开发表学术论文近 30 篇，专利 20 余篇，并且是国内 TID 、 NCTS 、 MAD 、 MPD 、 TICA 、China DevOpsdays 、 QECon、GOPS、GTest等技术峰会的演讲嘉宾或出品人。

第 1 章 AI 系统概述 001 1.1 AI 简介 001 1.2 AI 系统的分类 003 1.3 机器学习的模型和分类 006 1.4 AIGC 是新趋势 009 1.5 AI 系统对测试工程师提出的新问题 010 1.5.1 测试彻底变成黑盒测试 010 1.5.2 数据集划分困难 011 1.5.3 测试预期变得模糊 011 1.5.4 偏见识别要求高 012 1.5.5 多种可能性导致需要重定判断标准 013 1.6 小结 014 第 2 章数据和测试评价 015 2.1 数据收集和清洗 015 2.2 数据标注 018 2.3 数据集划分 021 2.3.1 留出法 023 2.3.2 自助法 023 2.3.3 交叉验证法 024 2.4 依托测试数据的测试评价方法 026 2.5 小结 029 第 3 章 AI 模型评估 031 3.1 大模型中常用参数的含义 031 3.2 模型的性能度量 035 3.3 大模型的基准测试 038 3.3.1 面向自然语言处理能力的基准测试：GLUE 和 SuperGLUE 038 3.3.2 模型知识获取能力的基准测试：MMLU、C-Eval 041 3.3.3 多指标综合基准测试：HELM 043 002 大模型测试技术与实践 3.4 小结 044 第 4 章 AI 系统测试的关键技术和实践 045 4.1 功能测试和 AI 系统测试困局 045 4.2 蜕变测试 047 4.3 传统软件的测试实践仍然有效 053 4.3.1 测试用例设计方法同样有效 053 4.3.2 分层测试还会发挥作用 058 4.3.3 兼容性测试设计方法更加重要 059 4.3.4 性能测试仍然有效 063 4.4 ChatGPT 类应用中 SSE 协议的接口测试 067 4.4.1 SSE 协议简介 067 4.4.2 SSE 服务端代码 069 4.4.3 SSE 客户端代码 070 4.4.4 SSE 接口的测试脚本 072 4.5 LangSmith 帮助测试大模型系统的能力和效果 072 4.6 AI 系统的测试评估方法 078 4.7 小结 079 4.7.1 代码自动化法 079 4.7.2 人工法 081 4.7.3 模型法 082 第 5 章 AI 道德的验证和实践方法 085 5.1　AI 道德 085 5.1.1　歧视 089 5.1.2 偏见 091 5.1.3 道德判断 095 5.1.4　透明度 097 5.1.5　可信度 100 5.1.6 权利谋取 101 5.2　AI 道德的好帮手：Model Card 102 5.3　AI 道德的其他验证和实践方法 106 5.4　小结 109 第6章提示词工程和软件测试 111 6.1 提示词工程 111 6.1.1 提示词 112 003 目录 6.1.2 提示词的设计方法 116 6.2 大模型的思维链提示词系统集成 127 6.2.1 通过思维链实现测试用例设计方法中的等价类划分法 128 6.2.2 通过思维链实现测试用例设计方法中的因果图法 138 6.3 通过LangChain封装讯飞星火大模型的调用类 146 6.4 利用大模型生成数据 155 6.5 小结 157 第7章智能化测试 159 7.1 智能化测试是发展的必然 159 7.2 分层测试中的智能化测试 163 7.2.1 开源的智能化单元测试 164 7.2.2 智能化接口测试设计思路 165 7.2.3 开源的智能化UI测试 171 7.3 小结 174 第8章大模型下的智能化测试 175 8.1 大模型和测试技术 175 8.2 RAG 176 8.3 Embedding模型 178 8.4 SQLAlchemy实现数据库的交互 179 8.4.1 使用filter_by()方法 179 8.4.2 使用filter()方法 180 8.4.3 使用join()方法 181 8.4.4 使用distinct()方法 182 8.4.5 使用order_by()方法 182 8.4.6 使用group_by()方法和having子句 182 8.5 通过LlamaIndex实现大模型SQL语句生成的3种方法详解 183 8.5.1 查询引擎 184 8.5.2 查询时表提取 186 8.5.3 Retriever 187 8.6 LlamaIndex的NodeParser 188 8.6.1 文档的NodeParser 189 8.6.2 HTML的NodeParser 190 8.6.3 JSON的NodeParser 190 8.6.4 Markdown的NodeParser 192 004 大模型测试技术与实践 8.6.5 文档分割 193 8.7 大模型云服务生成接口测试脚本实战 195 8.7.1 大模型云服务的调用 195 8.7.2 接口测试脚本生成 201 8.7.3 接口测试的解决方案 207 8.8 本地大模型生成接口测试脚本实战 212 8.8.1 Ollama在本地部署大模型 213 8.8.2 Ollama在局域网内部署访问 214 8.8.3 Ollama常用命令 218 8.8.4 本地大模型驱动的接口测试实践 219 8.9 基于大模型的Web自动化框架LaVague 221 8.10 小结 223 附录A 225 附录B 227 B.1 系统层指标 227 B.1.1 CPU指标 227 B.1.2 内存指标 228 B.1.3 磁盘指标 229 B.1.4 网络指标 231 B.2 中间件层指标 232 B.2.1 网关 232 B.2.2 数据库 233 B.2.3 缓存 234 B.2.4 MQ 235 B.2.5 分布式存储系统 236 B.3 应用层指标 236 B.3.1 响应时间 236 B.3.2 吞吐量 237 B.3.3 应用资源 238 B.3.4 线程池 239 B.3.5 垃圾回收 239 B.3.6 错误信息 241 B.4 业务层指标 242 B.5 压力机指标 242

大模型测试技术与实践

库存： {{selectedSku?.stock}} 库存充足