您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
实体消解指南:使用Python进行数据匹配
字数: 202
出版社: 机械工业
作者: [英]迈克尔·希勒(Michael Shearer)
商品条码: 9787111783299
适读年龄: 12+
版次: 1
开本: 16开
页数: 182
出版年份: 2025
印次: 1
定价:
¥69
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
在数据驱动时代,实体消解技术是打通数据孤岛的核心利器。本书以Python为工具,系统讲解从数据清洗到云端大规模部署的全流程技术: ·基础原理:解析实体消解5大步骤(数据标准化、分块、属性比较、匹配分类、聚类),直面姓名模糊、数据缺失、跨源匹配等实战难题; ·算法攻坚:详解编辑距离、Jaro-Winkler相似度等文本匹配技术,结合贝叶斯定理、期望zui大化算法构建概率匹配模型; ·工具实战:基于Splink实现企业级数据消解,通过谷歌云平台扩展至百万级数据集; ·前沿拓展:引入隐私增强技术(PSI),平衡数据利用与合规风险。 全书配套GitHub代码库,以英国公司注册署、海事署等真实数据演示跨领域(金融风控、供应链管理)场景应用,助力读者构建可复用的数据资产整合方案。
作者简介
Michael Shearer是HAWK:AI公司的首席解决方案官,该公司致力于帮助金融机构侦测金融犯罪活动。作为汇丰银行前董事总经理,他在2014—2023年间主导开发了一套合规系统。此外,迈克尔还在英国政府部门拥有20年的工作经验,曾担任多个关键的管理和技术角色。
目录
目录 前言1 第1章 实体消解入门7 1.1 什么是实体消解7 1.2 实体消解的作用8 1.3 实体消解的主要挑战9 1.3.1 姓名缺少唯一性9 1.3.2 命名约定不一致9 1.3.3 数据获取不一致10 1.3.4 示例11 1.3.5 故意模糊处理12 1.3.6 匹配组合12 1.3.7 盲目匹配13 1.4 实体消解过程13 1.4.1 数据标准化14 1.4.2 记录分块14 1.4.3 属性比较14 1.4.4 匹配分类14 1.4.5 聚类14 1.4.6 规范化15 1.4.7 示例15 1.5 评估结果16 1.6 正式开始17 第2章 数据标准化19 2.1 案例19 2.2 设置环境20 2.3 获取数据22 2.3.1 维基百科数据22 2.3.2 TheyWorkForYou数据24 2.4 清洗数据26 2.4.1 清洗维基百科数据26 2.4.2 清洗TheyWorkForYou数据27 2.5 比较属性28 2.6 选区29 2.7 评估结果33 2.8 计算样本34 2.9 总结35 第3章 文本匹配36 3.1 编辑距离匹配36 3.1.1 Levenshtein距离37 3.1.2 Jaro相似度38 3.1.3 Jaro-Winkler相似度39 3.2 语音匹配41 3.2.1 Metaphone算法41 3.2.2 MRA算法41 3.3 技术比较41 3.4 案例42 3.5 全面相似度比较44 3.6 评估结果47 3.7 总结48 第4章 概率匹配49 4.1 案例49 4.2 单一属性匹配概率51 4.2.1 名字匹配概率51 4.2.2 姓氏匹配概率52 4.3 多属性匹配概率53 4.4 概率模型55 4.4.1 贝叶斯定理55 4.4.2 m值56 4.4.3 u值57 4.4.4 λ值57 4.4.5 贝叶斯因子58 4.4.6 Fellegi-Sunter模型58 4.4.7 匹配权重59 4.5 期望最大化算法60 4.5.1 第一次迭代60 4.5.2 第二次迭代62 4.5.3 第三次迭代63 4.6 Splink入门65 4.6.1 配置Splink65 4.6.2 Splink匹配结果68 4.7 总结71 第5章 记录分块72 5.1 案例72 5.2 获取数据73 5.2.1 维基百科数据73 5.2.2 英国公司注册署数据74 5.3 数据标准化75 5.3.1 维基百科数据75 5.3.2 英国公司注册署数据76 5.4 记录分块与属性比较76 5.4.1 使用Splink进行记录分块77 5.4.2 比较属性78 5.5 匹配分类82 5.6 评估结果84 5.7 总结84 第6章 匹配公司85 6.1 案例85 6.2 获取数据86 6.3 数据标准化86 6.3.1 英国公司注册署数据87 6.3.2 英国海事及海岸警卫署数据88 6.4 记录分块与属性比较89 6.5 匹配分类92 6.6 评估结果94 6.7 匹配新实体96 6.8 总结97 第7章 聚类98 7.1 简单精确匹配聚类99 7.2 近似匹配聚类101 7.3 案例104 7.3.1 获取数据104 7.3.2 数据标准化105 7.4 记录分块与属性比较105 7.4.1 数据分析106 7.4.2 期望最大化分块规则106 7.5 匹配分类与聚类110 7.6 簇可视化112 7.7 聚类分析113 7.8 总结117 第8章 使用谷歌云平台进行扩展119 8.1 谷歌云设置120 8.2 创建Dataproc集群124 8.3 配置Dataproc集群128 8.4 使用Spark进行实体消解130 8.5 评估结果133 8.6 整理工作133 8.7 总结134 第9章 实体消解云服务135 9.1 BigQuery简介135 9.2 企业知识图谱 API138 9.2.1 模式映射138 9.2.2 消解作业140 9.2.3 处理结果145 9.2.4 实体消解Python客户端147 9.3 评估结果149 9.4 总结150 第10章 利用记录关联技术保护隐私151 10.1 隐私集合求交简介151 10.2 PSI原理152 10.3 基于ECDH的PSI协议154 10.3.1 布隆过滤器154 10.3.2 格伦布编码集157 10.4 案例:使用PSI160 10.4.1 设置环境160 10.4.2 服务器代码163 10.4.3 客户端代码165 10.4.4 完整的MCA和公司注册署样本示例170 10.5 总结172 第11章 进一步探讨173 11.1 数据问题探讨173 11.1.1 非结构化数据问题173 11.1.2 数据质量问题174 11.1.3 时效性问题174 11.2 属性比较175 11.2.1 集合匹配175 11.2.2 地理编码位置匹配175 11.2.3 汇总比较176 11.3 后处理176 11.4 图形表示178 11.5 实时性问题178 11.6 评估结果179 11.6.1 成对方法180 11.6.2 基于簇的方法180 11.7 实体消解的未来181
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网