您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Python文本分析
字数: 565000
装帧: 平装
出版社: 中国电力出版社
作者: (美)延斯·阿尔布雷希特,(美)西达尔特·拉马钱德兰,(美)克里斯蒂安·温克勒
出版日期: 2022-08-01
商品条码: 9787519864446
版次: 1
开本: 16开
页数: 440
出版年份: 2022
定价:
¥128
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书的主要内容有:提取API与网页的数据。统计分析和机器学习的文本数据预处理。机器学习分类、主题建模与摘要。解释AI模型与分类的结果。利用单词嵌入,探索及可视化语义相似性。分析产品评论中的客户情感。根据命名实体及其关系创建知识图。
目录
前言1
第1章洞悉文本数据11
1.1本章内容概要11
1.2探索性数据分析12
1.3数据集简介13
1.4案例:使用Pandas获取数据概要14
1.4.1计算列的汇总统计结果15
1.4.2检查缺少的数据16
1.4.3绘制值的分布图17
1.4.4比较各个类别的分布18
1.4.5可视化一段时间内的变化19
1.5案例:构建简单的文本预处理流水线21
1.5.1使用正则表达式分词21
1.5.2删除停用词22
1.5.3通过一行代码处理流水线24
1.6词频分析案例26
1.6.1案例:使用Counter统计单词个数26
1.6.2案例:创建词频图29
1.6.3案例:创建词云30
1.6.4案例:TF-IDF排名32
1.7案例:查找上下文关键字35
1.8案例:n元语法分析37
1.9案例:比较不同时间段和类别的词频40
1.9.1创建词频时间表40
1.9.2创建词频热图42
1.10小结44
第2章利用API提取文本45
2.1本章内容概要45
2.2应用程序编程接口45
2.3案例:使用requests模块通过API提取数据47
2.3.1分页52
2.3.2速率53
2.4案例:使用Tweepy提取推特数据57
2.4.1获取凭证58
2.4.2安装与配置Tweepy59
2.4.3通过SearchAPI提取数据60
2.4.4从用户的时间线中提取数据64
2.4.5通过流API提取数据66
2.5小结69
第3章网页抓取与数据提取71
3.1本章内容概要71
3.2抓取网页与提取数据72
3.3路透社新闻存档简介73
3.4URL生成75
3.5案例:下载和解读robots.txt76
3.6案例:从sitemap.xml中寻找URL77
3.7案例:通过RSS查找URL79
3.8下载数据81
3.9案例:使用Python下载HTML页面82
3.10案例:利用wget下载HTML页面83
3.11提取半结构化数据84
3.12案例:通过正则表达式提取数据85
3.13案例:使用HTML解析器提取数据86
3.14案例:爬虫94
3.14.1案例介绍94
3.14.2错误处理与生产级质量的软件97
3.15基于密度的文本提取98
3.15.1利用Readability读取路透社的内容98
3.15.2总结基于密度的文本提取100
3.16一体化解决方案100
3.17案例:使用Scrapy抓取路透社的存档101
3.18爬虫面临的难题103
3.19总结和建议104
第4章准备统计和机器学习的文本数据105
4.1本章内容概要105
4.2数据预处理流水线106
4.3数据集介绍:RedditSelf-Posts107
4.3.1将数据加载到Pandas107
4.3.2案例:标准化属性名称107
4.3.3保存和加载数据框109
4.4清理文本数据110
4.4.1案例:使用正则表达式识别噪声111
4.4.2案例:使用正则表达式剔除噪声113
4.4.3案例:使用textacy规范化字符115
4.4.4案例:使用textacy根据模式遮挡数据116
4.5分词118
4.5.1案例:使用正则表达式分词118
4.5.2NLTK分词120
4.5.3分词建议120
4.6spaCy的语言处理121
4.6.1实例化流水线122
4.6.2处理文本123
……
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网