- 已选 件
- 已售件
-
服务
- √7天无理由退货(拆封后不支持)
- √假一赔三
- √消费者保障服务
商品详情
-
ISBN编号
9787302671572
-
书名
数据有道(数据分析+图论与网络+微课+Python编程)
-
作者
姜伟生 著
-
出版社名称
清华大学出版社
-
定价
238.00
-
开本
16开
-
出版时间
2024-10-01
-
纸张
胶版纸
-
包装
软精装
- 查看全部
编辑推荐
这是一本前所未见的数据入门书,颜值极高。姜伟生博士自谦“小镇做题家”,实际上他是国际著名金融企业的金融科技专家。很难想象一位以“术数”为业的金融家具备如此彻底的分享动机,同时,姜博士有着卓越的艺术品位和设计能力,不仅承担了这套书的精深内容,更承担了全系图书的整体设计。希望读者从枯燥的常规数学书中解脱出来,赏心悦目地慢慢走入缤纷的AI宇宙。
内容简介
《数据有道 : 数据分析+ 图论与网络+微课+Python编程》是“鸢尾花数学大系—从加减乘除到机器学习”丛书的第三板块 ( 实践板块 ) 中的一本关于数据 科学的分册。“实践”这个板块,我们将会把学到的编程、可视化, 特别是数学工具应用到具体的数据科学、 机器学习算法中,并在实践中加深对这些工具的理解。
《数据有道 : 数据分析+ 图论与网络+微课+Python编程》可以归纳为 7 大板块—数据说、数据处理、时间数据、图论基础、图的分析、图与矩阵、图论实践。 这 7 个板块 ( 共 25 章内容 ) 都紧紧围绕一个主题—数据!
《数据有道 : 数据分析+ 图论与网络+微课+Python编程》以数据为名,以好奇心和疑问为驱动,主动使用“编程 + 可视化 + 数学”工具进行探索。《数据有道 : 数据分析+ 图论与网络+微课+Python编程》将 会回顾鸢尾花书前五本主要的工具,让大家对很多概念从似懂非懂变成如数家珍;同时,我们还会掌握更 多工具,用来扩展大家的知识网络。
依照惯例,《数据有道 : 数据分析+ 图论与网络+微课+Python编程》提供代码和视频教学。
《数据有道 : 数据分析+ 图论与网络+微课+Python编程》读者群包括数据科学从业者、大数据从业者、高级数据分析师、机器学习开发者、计算机图形学 研究者等。
作者简介
姜伟生 博士 FRM。
勤奋的小镇做题家,热爱知识可视化和开源分享。自2022年8月开始,在GitHub上开源“鸢尾花书”学习资源,截至2024年5月,已经分享5000多页PDF、5000多幅矢量图、约3000个代码文件,全球读者数以万计,GitHub全球排名TOP100。
目录
绪论 1
第一板块 综述5
第 1章 万物皆数 7
1.1 万物皆数:从矩阵说起 8
1.2 数据分类:定量 ( 连续、离散 ) 、定性 ( 定类、定序 ) 14
1.3 机器学习:四大类算法 17
1.4 特征工程:提取、转换、构建数据 21
第2板块 数据处理23
第 2章 缺失值 25
2.1 是不是缺了几个数? 26
2.2 可视化缺失值位置 30
2.3 处理缺失值:删除 34
2.4 单变量插补 37
2.5 k 近邻插补 39
2.6 多变量插补 41
第 3章 离群值 43
3.1 这几个数有点不合群? 44
3.2 直方图:单一特征分布 46
3.3 散点图:成对特征分布 49
3.4 QQ 图:分位数 - 分位数 51
3.5 箱型图:上界、下界之外样本 54
3.6 Z 分数:样本数据标准化 55
3.7 马氏距离和其他方法 57
第4章 数据转换 63
4.1 数据转换 64
4.2 中心化:去均值 65
4.3 标准化:Z 分数 69
4.4 归一化:取值在 0 和 1 之间 71
4.5 广义幂转换 72
4.6 经验累积分布函数 74
4.7 插值 79
第 5章 数据距离 91
5.1 怎么又聊距离? 92
5.2 欧氏距离:最常见的距离 94
5.3 标准化欧氏距离:考虑标准差 96
5.4 马氏距离:考虑标准差和相关性 99
5.5 城市街区距离:L1 范数 101
5.6 切比雪夫距离:L ∞范数 102
5.7 闵氏距离:Lp 范数 103
5.8 距离与亲近度 104
5.9 成对距离、成对亲近度 108
5.10 协方差矩阵,为什么无处不在? 110
第3板块 时间数据127
第6 时间数据 129
6.1 时间序列数据 130
6.2 处理时间序列缺失值 133
6.3 从时间数据中发现趋势 135
6.4 时间序列分解 138
6.5 时间数据讲故事 143
第 7章 移动窗口 157
7.1 移动窗口 158
7.2 移动波动率 162
7.3 相关性 165
7.4 回归系数 166
7.5 指数加权移动平均 167
7.6 EWMA 波动率 169
第 8章 随机过程入门 175
8.1 布朗运动:来自花粉颗粒无规则运动 176
8.2 无漂移布朗运动 180
8.3 漂移布朗运动:确定 + 随机 182
8.4 具有一定相关性的布朗运动 185
8.5 几何布朗运动 188
8.6 股价模拟 190
8.7 相关股价模拟 193
第 9章 高斯过程 197
9.1 高斯过程原理 198
9.2 协方差矩阵 202
9.3 分块协方差矩阵 206
9.4 后验 206
9.5 噪声 210
9.6 核函数 211
第4板块 图论基础223
第 10章 图论入门 225
10.1 什么是图? 226
10.2 图和几何 233
10.3 图和矩阵 234
10.4 图和机器学习 236
10.5 NetworkX 241
第 11章 无向图 243
11.1 无向图:边没有方向 244
11.2 自环:节点到自身的边 248
11.3 同构:具有等价关系的图 250
11.4 多图:同一对节点存在不止一条边 253
11.5 子图:图的一部分 254
11.6 有权图:边自带权重 256
第 12章 有向图 261
12.1 有向图:边有方向 262
12.2 出度、入度 265
12.3 邻居:上家、下家 266
12.4 有向多图:平行边 267
12.5 三元组:三个节点的 16 种关系 269
12.6 NetworkX 创建图 273
第 13章 图的可视化 281
13.1 节点位置 282
13.2 节点装饰 286
13.3 边装饰 289
13.4 分别绘制节点和边 291
第5板块 图的分析299
第 14章 常见图 301
14.1 常见图类型 302
14.2 完全图 303
14.3 二分图 307
14.4 正则图 310
14.5 树 311
14.6 柏拉图图 315
第 15章 从路径说起 321
15.1 通道、迹、路径、回路、环 322
15.2 常见路径问题 333
15.3 最短路径问题 334
15.4 欧拉路径 339
15.5 哈密尔顿路径 339
15.6 推销员问题 340
第 16章 连通性 343
16.1 连通性 344
16.2 连通分量 349
16.3 强连通、弱连通:有向图 352
16.4 桥 353
第 17章 图的分析 357
17.1 度分析 358
17.2 距离度量 363
17.3 中心性 372
17.4 图的社区 380
第6板块 图与矩阵 383
第 18章 从图到矩阵 385
18.1 无向图到邻接矩阵 386
18.2 有向图到邻接矩阵 397
18.3 传球问题 399
18.4 邻接矩阵的矩阵乘法 406
18.5 特征向量中心性 409
第 19章 成对度量矩阵 413
19.1 成对距离矩阵 414
19.2 亲近度矩阵:高斯核函数 420
19.3 相关性系数矩阵 424
第 20章 转移矩阵 429
20.1 再看邻接矩阵 430
20.2 转移矩阵:可能性 435
20.3 有向图 436
20.4 马尔可夫链 442
第 21章 其他矩阵 449
21.1 图中常见矩阵 450
21.2 关联矩阵 450
21.3 度矩阵 462
21.4 拉普拉斯矩阵 464
第7板块 图论实践 475
第 22章 树 477
22.1 树 478
22.2 最近共同祖先 484
22.3 最小生成树 485
22.4 决策树:分类算法 487
22.5 层次聚类 490
22.6 树形图:聚类算法 496
第 23章 数据聚类 499
23.1 数据聚类 500
23.2 距离矩阵 502
23.3 相似度 504
23.4 无向图 506
23.5 拉普拉斯矩阵 507
23.6 特征值分解 509
第 24章 PageRank算法 513
24.1 PageRank 算法 514
24.2 线性方程组 522
24.3 幂迭代 526
第 25章 社交网络分析 533
25.1 社交网络分析 534
25.2 度分析 536
25.3 图距离 538
25.4 中心性 542
25.5 社区结构 547
前言/序言
Preface
前言
感谢
首先感谢大家的信任。
作者仅仅是在学习应用数学科学和机器学习算法时,多读了几本数学书,多做了一些思考和知识 整理而已。知者不言,言者不知。知者不博,博者不知。由于作者水平有限,斗胆把自己有限所学所 思与大家分享,作者权当无知者无畏。希望大家在 B 站视频下方和 GitHub 多提意见,让“鸢尾花数 学大系—从加减乘除到机器学习 ”丛书成为作者和读者共同参与创作的优质作品。
特别感谢清华大学出版社的栾大成老师。从选题策划、内容创作到装帧设计,栾老师事无巨细、 一路陪伴。每次与栾老师交流,都能感受到他对优质作品的追求、对知识分享的热情。
出来混总是要还的
曾经,考试是我们学习数学的唯一动力。考试是头悬梁的绳,是锥刺股的锥。我们中的绝大多数 人从小到大为各种考试埋头题海,学数学味同嚼蜡,甚至对其恨之入骨。
数学给我们带来了无尽的“折磨”。我们甚至恐惧数学,憎恨数学,恨不得一走出校门就把数学 抛之脑后,老死不相往来。
可悲可笑的是,我们很多人可能会在毕业五年或十年以后,因为工作需要,不得不重新学习微积分、 线性代数、概率统计,悔恨当初没有学好数学,走了很多弯路,没能学以致用,甚至迁怒于教材和老师。
这一切不能都怪数学,值得反思的是我们学习数学的方法和目的。
再给自己一个学数学的理由
为考试而学数学,是被逼无奈的举动。而为数学而学数学,则又太过高尚而遥不可及。
相信对于绝大部分人来说,数学是工具,是谋生手段,而不是目的。我们主动学数学,是想用数 学工具解决具体问题。
现在,本丛书给大家带来一个学数学、用数学的全新动力—数据科学、机器学习。
数据科学和机器学习已经深度融合到我们生活的方方面面,而数学正是开启未来大门的钥匙。不
数据有道 5校 文前.indd 1
2024/8/26
是所有人生来都握有一副好牌,但是掌握“数学 + 编程 + 机器学习 ”的知识绝对是王牌。这次,学习 数学不再是为了考试、分数、升学,而是为了投资时间,实现自我,面向未来。
未来已来,你来不来?
本丛书如何帮到你
为了让大家学数学、用数学,甚至爱上数学,作者可谓颇费心机。在本丛书创作时,作者尽量克 服传统数学教材的各种弊端,让大家学习时有兴趣、看得懂、有思考、更自信、用得着。
为此,本丛书在内容创作上突出以下几个特点。
虽然本丛书标榜“从加减乘除到机器学习”,但是建议读者朋友们至少具备高中数学知识。如果 读者正在学习或曾经学过大学数学 (微积分、线性代数、概率统计) ,那么就更容易读懂本丛书了。
聊聊数学
数学是工具 。锤子是工具,剪刀是工具,数学也是工具。
数学是思想 。数学是人类思想高度抽象的结晶。在其冷酷的外表之下,数学的内核实际上就是人 类朴素的思想。学习数学时,知其然,更要知其所以然。不要死记硬背公式、定理,理解背后的数学 思想才是关键。如果你能画一幅图,用大白话描述清楚一个公式、一则定理,这就说明你真正理解了它。
数学是语言 。就好比世界各地不同种族有自己的语言,数学则是人类共同的语言和逻辑。数学这 门语言极其精准,高度抽象,放之四海而皆准。虽然我们中大多数人没有被数学“女神 ”选中,不能 为人类对数学认知开疆拓土,但是这丝毫不妨碍我们使用数学这门语言。就好比,我们不会成为语言 学家,但是我们完全可以使用母语和外语交流。
数学是体系 。代数、几何、线性代数、微积分、概率统计、优化方法等,看似一个个孤岛,实际 上它们都是由数学网络连接起来的。建议大家在学习时,特别关注不同数学板块之间的联系,见树, 更要见林。
数学是基石 。拿破仑曾说:“数学的日臻完善和国强民富息息相关。”数学是科学进步的根基, 是经济繁荣的支柱,是保家卫国的武器,是探索星辰大海的航船。
数学是艺术 。数学和音乐、绘画、建筑一样,都是人类艺术体验。通过可视化工具,我们会在看 似枯燥的公式、定理、数据背后,发现数学之美。
数学是历史,是人类共同记忆体。“历史是过去,又属于现在,同时在指引未来。”数学是人类 的集体学习思考,它把人的思维符号化、形式化,进而记录、积累、传播、创新、发展。从甲骨、泥
II
数据有道 5校 文前.indd 2
2024/8/26
板、石板、竹简、木牍、纸草、羊皮卷、活字印刷字模、纸张,到数字媒介,这一过程持续了数千年, 至今绵延不息。
数学是无穷无尽的想象力,是人类的好奇心,是自我挑战的毅力,是一个接着一个的问题,是看 似荒诞不经的猜想,是一次次胆大包天的批判性思考,是敢于站在前人肩膀之上的勇气,是孜孜不倦 地延展人类认知边界的不懈努力。
家园、诗、远方
诺瓦利斯曾说:“哲学就是怀着一种乡愁的冲动到处去寻找家园。”
在纷繁复杂的尘世,数学纯粹得就像精神的世外桃源。数学是一束光、一条巷、一团不灭的希望、 一股磅礴的力量、一个值得寄托的避风港。
打破陈腐的锁链,把功利心暂放一边,我们一道怀揣一份乡愁,心存些许诗意,伴随艺术维度, 投入数学张开的臂膀,驶入它色彩斑斓、变幻无穷的深港,感受久违的归属,一睹更美、更好的远方。
数据有道 5校 文前.indd 3
《数据有道》
2024/8/26 19:25:30
Acknowledgement
致谢
To my parents.
谨以此书献给我的母亲和父亲。
数据有道 5校 文前.indd 4
2024/8/26
使用本书
丛书资源
本系列丛书提供的配套资源有以下几个。
数学家、科学家、 艺术家等语录
配套Python代码完 成核心计算和制图
引出本书或本系列 其他图书相关内容
相关数学家生平贡 献介绍
代码中核心Python 库函数和讲解
用Streamlit开发制
作App
提醒读者格外注意 的知识点
每章结束总结或升 华本章内容
思维导图总结本章 脉络和核心内容
介绍数学工具、机 器学习之间的联系
每章配套微课视频 二维码
本书核心参考文献和 推荐阅读文献
数据有道 5校 文前.indd 5
2024/8/26
微课视频
本书配套微课视频均发布在B站—生姜DrGinger。
微课视频是以“聊天 ”的方式,和大家探讨某个数学话题的重点内容,讲解代码中可能遇到的难 点,甚至侃侃历史,说说时事,聊聊生活。
本书配套微课视频的目的是引导大家自主编程实践、探究式学习,并不是“照本宣科”。
纸质图书上已经写得很清楚的内容,视频课程只会强调重点。需要说明的是,图书内容不是视频 的“逐字稿”。
App开发
本书配套多个用Streamlit开发的App ,用来展示数学动画、数据分析、机器学习算法。
Streamlit是个开源的Python库,能够方便、快捷地搭建、部署交互型网页App 。Streamlit简单易 用,很受欢迎。Streamlit兼容目前主流的Python数据分析库,比如NumPy 、Pandas 、Scikit-Learn 、 PyTorch 、TensorFlow等。Streamlit还支持Plotly 、Bokeh 、Altair等交互可视化库。
本书中很多App设计都采用Streamlit + Plotly方案。此外,本书专门配套教学视频手把手和大家一 起做App。
大家可以参考如下页面,更多地了解Streamlit: