您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
搜索引擎零距离.基于RUBY+JAVA搜索引擎原理与实现
装帧: 平装
出版社: 清华大学
作者: 王亮 编著 著
出版日期: 2009-06-01
商品条码: 9787302201472
版次: 1
开本: 16开
页数: 0
出版年份: 2009
定价:
¥39.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
本书特色: 国内垂直搜引擎的扛鼎之作; 集开源搜索引擎之大成,融会贯通,自成一体; 无线搜索引擎核心技术零距离接触; Web信息挖掘专用程序设计语言,语法标准首次发布; 垂直爬虫专业并行虚拟机核心技术展示; 多年商业搜索引擎开发运营经验之提炼总结; 真实的中型分布式搜索引擎开发案例全景展现; 最新Java前沿技术在经典计算机理论上的优秀应用; 专业信息检索理论与商业搜索需求的完美结合; Java软件工程设计模式最佳实践。
内容简介
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。
本书的作者是一位资深的搜索引擎开发人员,书中对数据获取(网络信息挖掘)与数据检索(搜索引擎)两个方面作了深入的介绍。本书首先提出了一套“网络数据挖掘”的完整理论,并给出一个实际的智能爬虫系统,通过理论与实际的完整呈现,使读者能够对“网络数据挖掘”有一个比较具体的认识,然后介绍了一个专用程序语言IRS,并给出了这个语言的编译器以及虚拟机的实现方法。本书还通过对多个开源搜索引擎项目抽丝剥茧的细致分析,引出搜索引擎的一些基本原理与开发方法,并介绍了一个商业化搜索引擎的实例。本书的最后还结合一个Java框架介绍了一些软件设计思想。
本书涉及网络数据挖掘、搜索引擎原理、编译原理、数据库原理、正则表达式、软件工程、设计模式、Ruby语言、HTTP协议等计算机科学与技术的知识,适合搜索引擎开发人员作为参考,也适合有一定计算机基础的读者阅读,以扩展视野。
本书的内容中,既有教科书式的理论阐述,也有“七天入门”式的实例解析,还有《Linux内核情景分析》风格的细致的代码分析,甚至还有一些英语文献翻译,从初学者到有一定经验的搜索引擎开发人员,各个层次的读者都能找到一些适合自己阅读的章节。
目录
第1章 网页数据挖掘
1.1 网页数据挖掘定义
1.2 Web数据挖掘面临的问题
1.3 Web数据挖掘的分类
1.4 网页数据的结构与特点
1.4.1 HTML超文本标记语言
1.4.2 WML无线标记语言
1.5 网页数据挖掘的基本方法
1.5.1 预备知识
1.5.2 变量模板匹配方法
1.5.3 树节点直接标识方法
1.5.4 语义规则识别方法
第2章 智能网络爬虫
2.1 智能网络爬虫的定义与特点
2.2 抓取入口定义
2.3 次级页面自动发现
2.4 次级页面地址拼接
2.5 已爬地址处理
2.6 信息采集强度控制
2.7 模拟用户登录
2.8 验证码识别
2.9 代理服务器设置
2.10 JavaScript解析控制
第3章 网页信息挖掘专用程序设计语言IRS
3.1 IRS语言的简介与设计原则
3.2 IRS脚本语法结构
3.2.1 页面配置块
3.2.2 页面名语句
3.2.3 爬虫配置声明语句
3.2.4 入口声明语句
3.2.5 编码配置
3.2.6 步长配置
3.2.7 重试次数配置
3.2.8 正则模式匹配语句
3.2.9 匹配名声明
3.2.10 IEE表达式
3.2.11 模式匹配修饰符
3.2.12 节点模式匹配语句
3.2.13 次级页面入口语句
3.2.14 保存语句
3.2.15 Ruby控制语句
3.2.16 爬虫配置语句
3.2.17 系统配置语句
3.2.18 外部配置文件
3.2.19 执行语句块
3.2.20 IRQL存储语句
3.2.21 IRQL语言中的数据表
3.2.22 IRQL内部函数
3.2.23 实例解析
第4章 IRS虚拟机及编译器实现原理
4.1 Ruby基本语法
4.1.1 字句构造和表达式
……
第5章 搜索引擎设计原理
第6章 搜索引擎的商业化实现
第7章 Hivemind
后记与感谢
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网