您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
文本挖掘
用流行的R语言实现文本挖掘
装帧: 平装
出版社: 机械工业出版社
作者: (美)茱莉亚·斯拉格(Julia Silge),(美)戴维·罗宾逊(David Robinson) 著;刘波,罗棻,唐亮贵 译
出版日期: 2018-03-01
商品条码: 9787111588559
版次: 1
开本: 16开
页数: 161
出版年份: 2018
定价:
¥59
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
当前很多数据都是非结构化的大规模文本,这给分析和可视化带来了挑战。茱莉亚·斯拉格、戴维·罗宾逊著的《文本挖掘(基于R语言的整洁工具)》使用实用的tidytext软件包来介绍文本挖掘技术,该包是由Julia Silge和David Robinson共同开发的R软件包(类似于ggplot2和dplyr软件包),开发时采用了整洁原则。本书将会介绍如何利用tidytext以及其他整洁工具使文本分析变得更容易、更有效。
本书展示如何将文本转换为数据框,然后提取和可视化文本的特征;并介绍如何将自然语言处理(NLP)融入有效的工作流程中;实用的代码示例和数据分析将帮助你了解文学作品、新闻和社交媒体中的有用信息。
作者简介
Julia Silge是Stack Overflow的数据科学家,负责复杂数据集分析及与不同受众进行技术主题交流。 她拥有天体物理学博士学位,热爱简·奥斯汀和制作美丽的图表。
David Robinson是Stack Overflow的数据科学家,普林斯顿大学定量与计算生物学博士。他喜欢开发开源R软件包,包括broom、gganimate、fuzzyjoin和widyr,还喜欢撰写统计、R和文本挖掘等方面的博客。
目录
前言
第1章 整洁文本格式
比较整洁文本结构与其他数据结构
unnest_tokens函数
整理Jane Austen的作品
gutenbergr包
词频
总结
第2章 基于整洁数据的情感分析
情感数据集
内连接的情感分析
比较三个情感词典
最常见的正面单词和负面单词
Wordclouds模块
除单词外的其他文本单元
总结
第3章 分析词和文件频率:tf-idf
Jane Austen小说中的词项频率
Zipf定律
bind_tf_idf函数
物理学语料库
总结
第4章 词之间的关系:n-gram及相关性
n-gram词条化
用widyr包对单词对计数并计算相关性
总结
第5章 非整洁格式转换
使文档-词项矩阵整洁
将整洁文本数据转换为矩阵
总结
第6章 主题建模
LDA
示例:博大的图书馆馆藏
LDA方法的替代实现
总结
第7章 案例研究:Twitter归档文件比较
单词使用情况的比较
单词使用情况的变化
收藏和转发
总结
第8章 案例研究:NASA元数据挖掘
NASA如何组织数据
共现单词与相关单词
计算描述字段的tf-idf
总结
第9章 案例研究:分析Usenet文本
预处理
新闻组中的单词
情感分析
总结
参考文献
摘要
前言如果你从事分析或数据科学方面的工作,那么一定熟知这样一个事实:数据正在以前所未有的速度快速生成(也许这样的话有很多人都讲过)。通常培训分析人士来处理数字的表格或规整的数据。但现在大部分新增的数据都是非结构化的文本,而许多在分析领域工作的人都没有接受过乃至简单接受过处理自然语言方面的训练。 尽管我们熟悉许多数据处理和可视化方法,但是将这些方法应用于文本处理并非易事,所以开发了tidytext R包(Silge和Robinson,2016)。我们发现采用数据整洁原则可以使许多文本挖掘任务变得更简单、更有效,并且该原则和广泛使用的工具也是相一致的。把文本当作由单个单词构成的数据框的优势在于:(1)有助于轻松地操作、汇总以及展示文本特征;(2)有助于将自然语言处理整合到有效的工作流程中。 本书介绍了如何使用tidytext包以及其他基于R语言的tidy工具来进行文本挖掘。tidytext包提供的函数相对简单,但如何使用这个包则很重要。因此,本书还提供了真实的、极具吸引力的文本挖掘案例。 大纲本书首先介绍整洁文本格式,一些有关dplyr、tidyr和tidytext包的使用方法则按如下过程来介绍: 第1章概述了整洁文本格式和unnest_tokens()函数,同时介绍了gutenbergr和janeaustenr包,这些包提供了与文学相关的文本数据集,本书会使用这些数据集来进行介绍。 第2章介绍了如何使用tidytext中的sentiments数据集以及dplyr包中的inner_join()函数来对整洁文本数据集进行情感分析。 第3章介绍了tf-idf统计量(词项频率乘以逆文档频率),它可用来识别特定文档中特别重要的词项。 第4章介绍了n-gram以及如何使用widyr包和ggraph包来分析文本中的文字网络。 文本在分析的所有阶段并不是整洁的,能够在整洁和不整洁格式之间进行转换就显得非常重要。 第5章介绍了通过tm包和quanteda包来使文档–词项矩阵和Corpus对象变整洁的方法,以及如何将整洁文本数据集转换为文档–词项矩阵和Corpus对象格式。 第6章介绍了主题建模的概念,并使用tidy()方法对topicmodels包的输出进行解释和可视化。 通过整合多种已知的整洁文本挖掘方法,还给出了几个研究案例: 第7章通过作者自己的Twitter档案展示了整洁文本分析的应用。例如,Dave和Julia的Twitter习惯有什么不同?第8章通过查看超过32 000个NASA数据集(可用于JSON格式)中的关键字与标题、描述字段的关系来探索元数据。 第9章分析不同新闻组(与政治、曲棍球、技术、无神论等有关的主题)的即时通信消息数据集来了解新闻组同的模式。 本书不包括的主题本书对整洁文本挖掘框架进行了介绍,并给出了一系列的示例,但对于全面研究自然语言处理领域而言,这些依然不够。CRAN Task View on Natural Language Processing(https://cran.rproject.org/view=NaturalLanguageProcessing)提供了其他使用R进行计算语言学研究的详细信息。根据个人需求,你可能还想在以下方面进一步研究: 聚类、分类和预测文本机器学习是一个广泛的话题,可以轻松地找到很多与之相关的内容。第6章将介绍一种无监督聚类(主题建模)方法,但是还有更多其他的机器学习方法可以用来处理文本。 词嵌入当前流行的一种文本分析方法是将单词映射为向量,以便能检查单词之间的语言关系并对文本进行分类。尽管这些单词表示并不像我们理解的那样整洁,但已经可以在机器学习方法中得以广泛应用。 更复杂的词条化tidytext包通过信任词条化包(Mullen,2016)来进行标记,其本身使用统一的界面并包括各种词条化方法,但是在具体的应用程序中还有许多其他的词条化方法。 除英文以外的其他语言一些用户已经成功地将tidytext应用于除英语以外的其他语言的文本挖掘,但是本书不涵盖这方面的例子。 关于本书本书重点介绍实际软件示例和数据展示,几乎没有公式,但是有大量的代码。我们重点关注在分析文学、新闻和社交媒体时的深入理解。 本书不需要读者具有文本挖掘知识,而专业语言学家和文本分析师可能会认为本书的示例比较初级,但我们相信,他们也可以在这个框架上建立自己的分析。 本书假设读者至少熟悉R中的dplyr、ggplot2和>(管道)运算符,并且对如何应用这些工具进行文本数据挖掘感兴趣。对于没有这种专业背景的读者,推荐阅读Hadley Wickham和Garrett Grolemund(O'Reilly)的《R for Data Science》一书。若读者有一点背景并对整洁文本感兴趣,即使是R初学者也可以理解和使用本书的示例。 如果你正在阅读本书的纸质版本,那么图像会以灰度而不是彩色的形式呈现。要查看彩色版本的图像,请参阅本书的GitHub页面(http://github.com/dgrtwo/tidytext-mining)。 本书约定本书使用以下惯例: 斜体(Italic)表示新的术语、网址、电子邮件地址、文件名和文件扩展名。 等宽字体(Constant width)用于程序清单,以及段落中引用的程序元素,如变量或函数名称、数据库、数据类型、环境变量、语句和关键字。 等宽粗体(Constant width bold)展示用户应直
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网