「Python数据发掘系列」1. Python 库入门

zxl516239 · 2021-6-6 14:16:39

第一章 Python 库入门

1. 了解数据分析
2. 数据分析的标准流程
3. KDD流程
4. SEMMA
5. CRISP-DM
6. 比较数据分析和数据迷信
6.1 数据分析师和数据迷信家的角色
7. 数据分析师和数据迷信家的技能
8. 安装 Python 3
8.1 Windows 上的 Python 安装和设置
8.2 在 Linux 上安装和设置 Python
8.3 运用 GUI 安装程序在 Mac OS X 上停止 Python 安装和设置
8.4 运用 brew 在 Mac OS X 上停止 Python 安装和设置
9. 本书中运用的软件
10. 运用 IPython 作为 shell
10.1 阅读手册页
10.2 在哪里可以找到对 Python 数据分析库的协助和参考呢？
11. 运用 JupyterLab
12. 运用 Jupyter 笔记本
13. Jupyter 笔记本的高级功能
13.1 键盘快捷键
13.2 安装其他内核
13.3 运转 shell 命令
13.4 Notebook 扩展
14. 总结

众所周知，Python已成为最受欢迎的标准言语之一，并且是基于数据迷信的操作的残缺软件包。Python提供了许多库，例如NumPy，Pandas，SciPy，Scikit-Learn，Matplotlib，Seaborn和Plotly。这些库提供了一个残缺的数据分析生态系统，供数据分析师，数据迷信家和业务分析师运用。Python还提供了其他功能，例如灵敏性，易于学习，开发速度快，活跃的社区以及在复杂的数字，迷信和研讨运用程序上工作的才能。一切这些功能使其成为数据分析的首选。

在本章中，我们将重点引见各种数据分析过程，例如KDD，SEMMA和CRISP-DM。之后，我们将对数据分析和数据迷信停止比较，以及对于数据分析师和数据迷信家的角色和不同技能停止比较。最后，我们将转移工作重点，并末尾安装各种Python库，IPython，Jupyter Lab和Jupyter笔记本。我们还将引见Jupyter Notebook的各种高级功能。

1. 了解数据分析

我们生活在21世纪这个信息时代，这意味着我们日常生活的几乎每个方面都在生成数据。不只如此，企业运营，政府运营和社会岗位也在生成大量数据。由于业务，政府，迷信，工程，健康，社会，气候和环境等方面在不断产生数据，因此数据在日复一日地积累。在这一切的范畴中，我们需求一个系统的、通用的、有效的和灵敏的系统来停止分析和研讨，以便我们可以洞悉正在生成的数据。

在当今的智能世界中，数据分析为企业和政府运营提供了有效的决策流程。数据分析是检查，预处理，探求，描画和可视化给定数据集的活动。数据分析过程的次要目的是发现决策所需的信息。数据分析提供了多种方法，工具和技术。一切这些方法都可以运用于各个范畴，例如商业，社会迷信和基础迷信。

接上去让我们看一下Python生态系统的一些核心基础数据分析库：

NumPy：这是数字Python的简写方式。它是Python中最弱小的迷信库，用于处理多维数组，矩阵和方法，以便有效地计算数学成绩。

SciPy：这也是一个功能弱小的迷信计算库，用于执行迷信，数学和工程运算。

Pandas：这是一个数据探求和操作库，提供表格格式的数据结构，例如DataFrames以及用于数据分析和操作的各种方法。

Scikit-learn：代表“机器学习的迷信工具包”。它是一个机器学习库，提供了各种有监督和无监督的算法，例如回归，分类，降维，聚类分析和异常检测。

Matplotlib：这是一个核心的数据可视化库，并且是Python中一切其他可视化库的基础库。它提供2D和3D绘图，图形，图表以及用于数据阅读的图形。它在NumPy和SciPy之上运转。

Seaborn：这是基于Matplotlib的，提供了易于绘制，高层次，互动性和更有条理的平面图。

Plotly：Plotly是一个数据可视化库。它提供了高质量的交互式图表，例如散点图，折线图，条形图，直方图，箱形图，热图和子图。

必要时，本书将提供所需库和软件的安装阐明。同时，我们将讨论各种数据分析过程，例如标准过程，KDD，SEMMA和CRISP-DM。

2. 数据分析的标准流程

数据分析是指调查数据，从中寻觅有意义的见解，并得出结论。此过程的次要目的是搜集，过滤，清算，转换，探求，描画，可视化和交流来自这些数据的见解，以发现决策信息。通常，数据分析过程包含以下内容：

〇搜集数据：从多个来源搜集和聚合数据。

〇预处理数据：过滤，清算数据并将其转换为所需的格式。

〇分析和发现见解：探求，描画和可视化数据，并找到见解和结论。

〇见解解释：了解见解并找到每个变量对系统的影响。

〇讲故事：以故事的方式传达你的结果，以便内行可以了解它们。

我们可以经过以下流程图总结数据分析过程的这些步骤：

在本节中，我们引见了标准的数据分析过程，该过程强调寻觅可解释的见解并将其转换为用户故事。在下一节中，我们将讨论KDD流程。

3. KDD流程

KDD是一个缩写，代表从数据中发现知识或在数据库中发现知识。许多人将KDD视为数据发掘的代名词。数据发掘被称为风趣形式的知识发现过程。KDD的次要目的是从大型数据库，数据仓库以及其他Web和信息存储库中提取或发现隐藏的风趣形式。KDD流程分为七个次要阶段：

〇数据清算：在此第一阶段，对数据停止预处理。此处，消弭了噪声，处理了缺失值，并检测了异常值。

〇数据集成：在此阶段，运用数据迁移和ETL工具将来自不同来源的数据合并和集成在一同。

〇数据选择：在此阶段，将搜集与分析义务相关的数据。

〇数据转换：在此阶段，将以所需的适当方式设计数据以停止分析。

〇数据发掘：在此阶段，数据发掘技术用于发现有用和未知的形式。

〇形式评价：在此阶段，对提取的形式停止评价。

〇知识呈现：在形式评价之后，需求对提取的知识停止可视化处理，并呈现给业务人员以用于决策。

下图显示了残缺的KDD过程：

KDD是提高数据质量，集成和转换以获得更完善系统的迭代过程。接上去，我们来讨论SEMMA流程。

4. SEMMA

SEMMA首字母缩略词的残缺格式为“采样”，“阅读”，“修正”，“模型”和“评价”。按此顺序的数据发掘过程是由SAS开发的。SEMMA流程分为五个次要阶段：

〇采样：在此阶段，我们将辨认不同的数据库并将其合并。之后，我们选择用于建模过程的数据样本。

〇探求：在此阶段，我们了解数据，发现变量之间的关系，将数据可视化，并获得初步的解释。

〇修正：在此阶段，预备数据停止建模。此阶段触及处理缺失值，检测异常值，转换要素以及创建新的附加要素。

〇模型：在此阶段，次要关注的是选择和运用不同的建模技术，例如线性和逻辑回归，反向传播网络，KNN，支持向量机，决策树和随机森林。

〇评价：在最后一个阶段，运用绩效评价方法对已开发的预测模型停止评价。

下图显示了SEMMA过程：

上图显示了SEMMA过程中触及的步骤。SEMMA强调模型的建立和评价。如今，让我们讨论一下CRISP-DM的过程。

5. CRISP-DM

CRISP-DM的残缺格式是CRoss-InduStry Process for Data Mining。CRISP-DM是一个定义明白，结构合理且经过验证的流程，用于机器学习，数据发掘和商业智能项目。它是一种健壮，灵敏，循环，有用和适用的方法，用来处理业务成绩。该过程从各个数据库发现隐藏的有价值的信息或形式。CRISP-DM流程分为六个次要阶段：

〇业务了解：在此第一阶段，次要目的是了解业务场景和设计分析目的和初始举动计划的要求。

〇数据了解：在此阶段，次要目的是了解数据及其搜集过程，执行数据质量检查并获得初步见解。

〇数据预备：在此阶段，次要目的是预备可用于分析的数据。这触及处理缺失值，离群值检测和处理，数据归一化以及特征工程。对于数据迷信家/分析人员而言，此阶段最耗时。

〇建模：这是整个过程中最令人兴奋的阶段，由于在此阶段中，你出于预测目的设计模型。首先，分析人员需求确定建模技术并根据数据开发模型。

〇评价：模型开发完成后，就可以运用模型评价措施（例如MSE，RMSE，R-Square回归和准确性，精度，召回率和F1措施）在验证和测试数据上评价和测试模型的功能。

〇部署：在此最后阶段，将在上一步中选择的模型部署到消费环境中。这需求数据迷信家，软件开发人员，DevOps专家和业务专业人员的团队合作。

下图显示了CRISP-DM过程的残缺周期：

标准过程侧重于发现见解并以故事方式停止解释，而KDD侧重于数据驱动的形式发现并对其停止可视化。SEMMA次要专注于模型构建义务，而CRISP-DM专注于业务了解和部署。如今我们了解了数据分析的一些过程，下面我们比较一下数据分析和数据迷信，以发现它们之间的关系以及使它们彼此不同的缘由。

6. 比较数据分析和数据迷信

数据分析是探求数据，以发现有助于我们做出业务决策的形式的过程。它是数据迷信的子范畴之一。数据分析方法和工具已被业务分析师，数据迷信家和研讨人员广泛用于多个业务范畴。其次要目的是提高消费力和利润。数据分析从不同来源提取和查询数据，停止探求性数据分析，可视化数据，预备报告，并将其提供给业务决策机构。另一方面，数据迷信是一个跨学科范畴，它运用迷信方法从结构化和非结构化数据中提取见解。数据迷信是一切术语的结合，包括数据分析，数据发掘，机器学习和其他相关范畴。数据迷信不只限于探求性数据分析，还用于开发模型和预测算法，例如股票价格，天气，疾病，欺诈预测以及诸如电影，书籍和音乐引荐之类的引荐。

6.1 数据分析师和数据迷信家的角色

数据分析师搜集，过滤，处理和运用所需的统计知识以从数据中捕获形式，趋向和见解，并预备用于决策的报告。数据分析师的次要目的是运用发现的形式和趋向来协助公司处理业务成绩。数据分析师还评价数据的质量并处理与数据获取有关的成绩。数据分析师应知晓编写SQL查询，发现形式，运用可视化工具和运用报告工具，例如Microsoft Power BI，IBM Cognos，Tableau，QlikView，Oracle BI等。

数据迷信家比数据分析师更具技术性和数学才能。数据迷信家以研讨和学术为导向，而数据分析师则以运用程序为导向。数据迷信家会预测将来的事情，而数据分析师则从数据中提取重要的见解。数据迷信家会提出本人的成绩，而数据分析师会找到给定成绩的答案。最后，数据迷信家专注于将要发生的事情，而数据分析师则专注于迄今为止发生的事情。我们可以运用下表总结这两个角色：

特点	数据迷信家	数据分析师
背景	根据数据预测将来事情和场景	从数据中发现有意义的见解。
角色作用	提出可以使企业受益的成绩	处理业务成绩以做出决策。
数据类型	处理结构化和非结构化数据	仅适用于结构化数据
编程方式	高级编程	基础编程
技能	统计知识，机器学习算法，NLP和深度学习	统计，SQL和数据可视化方面的知识
工具	R，Python，SAS，Hadoop，Spark，TensorFlow和Keras	Excel，SQL，R，Tableau和QlikView

既然我们知道了数据分析师和数据迷信家的定义，以及它们之间的区别，那么让我们来看看你要成为其中之一需求具有的各种技能。

7. 数据分析师和数据迷信家的技能

数据分析师是从数据中发现见解并从中创造价值的人。这有助于决策者了解企业的运营状况。数据分析师必须具有以下技能：

〇探求性数据分析（EDA）：EDA是数据分析人员的一项必不可少的技能。它有助于检查数据以发现形式，检验假设并确定假设。

〇关系数据库：必须至少了解一种关系数据库工具，例如MySQL或PostgreSQL是处理关系数据库所必需的。

〇可视化和BI工具：图片胜于言语。视觉对人类的影响更大，视觉是代表见解的一种简单明了的选择。可视化和BI工具（例如Tableau，QlikView，MS Power BI和IBM Cognos）可以协助分析师可视化和预备报告。

〇电子表格：必须具有MS Excel，WPS，Libra或Google表格的知识，才能以表格方式存储和管理数据。

〇讲故事和演示技能：讲故事的艺术是另一项必要技能。数据分析师应该是将数据理想与想法或事情联络起来并将其转化为故事的专家。

另一方面，数据迷信家的次要工作是运用数据处理成绩。为此，他们需求了解客户的要求，他们的范畴，他们的成绩空间，并确保他们得到真正想要的东西。数据迷信家承担的义务因公司而异。一些公司运用数据分析师并提供数据迷信家的头衔，这只是为了丑化职位。有些将数据分析师的义务与数据工程师结合在一同，并指定为数据迷信家。其他的则赋予他们在计算机上执行密集数据可视化的义务。

数据迷信家必须知晓各行各业，要“多戴帽子”，包括数据分析师，统计学家，数学家，程序员，ML或NLP工程师的帽子。大多数人在一切这些行业中都不足够纯熟或不是专家。另外，要想变得足够纯熟，就需求大量的努力和耐烦。这就是为什么在3到6个月内无法学习数据迷信的缘由。学习数据迷信是一段旅程。数据迷信家应具有多种技能，例如：

〇数学和统计学：大多数机器学习算法都基于数学和统计学。数学知识可协助数据迷信家开发定制处理方案。

〇数据库：SQL知识使数据迷信家可以与数据库停止交互并搜集数据以停止预测和引荐。

〇机器学习：对有监督的机器学习技术（例如回归分析，分类技术）和无监督的机器学习技术（例如聚类分析，离群值检测和降维）的了解。

〇编程技巧：编程知识可协助数据迷信家自动化其建议的处理方案。建议了解Python和R。

〇讲故事和演示技巧：经过PowerPoint演示以讲故事的方式交流结果。

〇大数据技术：对Hadoop和Spark等大数据平台的了解有助于数据迷信家为大型企业开发大数据处理方案。

〇深度学习工具：TensorFlow和Keras等深度学习工具用于NLP和图像分析。

除了这些技能之外，还需求具有用于从各种来源提取数据的Web抓取程序包/工具的知识，以及用于设计原型处理方案的Web运用程序框架（例如Flask或Django）的知识。一切都与数据迷信专业人员的技能有关。

既然我们曾经引见了数据分析和数据迷信的基础知识，那么让我们深化了解末尾停止数据分析所需的基本设置。在下一节中，我们将学习如何安装Python。

8. 安装Python 3

可以从官方网站轻松下载用于安装Python 3的安装程序文件（https://www.python.org/downloads/）适用于Windows，Linux和Mac 32位或64位系统。双击安装程序即可安装。此安装程序还具有一个名为“ IDLE”的IDE，可用于开发。在接上去的几节中，我们将更深化地研讨每个操作系统。

8.1 Windows上的Python安装和设置

本书基于最新的Python 3版本。本书中将运用的一切代码都是用Python 3编写的，因此，在末尾编码之前，我们需求安装Python 3。Python是一种开源，分布式且可无偿运用的言语。它也被可用于商业用途。Python有许多种版本的完成，包括商业完成和发行版。在本书中，我们将重点引见标准的Python完成，该完成可保证与NumPy兼容。

你可以从Python官方网站https://www.python.org/downloads/下载Python3.9.x。在这里，你可以找到Windows，Linux，Mac OS X和其他OS平台的安装文件。你可以在https://docs.python.org/3.7/using/index.html上找到有关在各种操作系统上安装和运用Python的阐明。

你需求在系统上安装Python 3.5.x或更高版本。Python 2.7的中止维护日期已从2015年移至2020年，但在撰写本文时，Python社区将不支持和维护Python 2.7。

在撰写本书时，我们已在Windows 10虚拟机上安装了Python 3.8.3作为必备软件：

https://www.python.org/ftp/python/3.8.3/python-3.8.3.exe

8.2 在Linux上安装和设置Python

与其他操作系统相比，在Linux上安装Python要容易得多。要安装基础库，请运转以下命令行指令：

$ pip3 install numpy scipy pandas matplotlib jupyter notebook

假如你在运用的计算机上没有足够的权限，则能够必须在之前的命令之前运转sudo命令。

8.3 运用GUI安装程序在Mac OS X上停止Python安装和设置

可以经过Python官方网站上的安装文件来安装Python。可以从mac OS的官方网页（https://www.python.org/downloads/mac osx /）下载安装程序文件。此安装程序还具有一个名为“ IDLE”的IDE，可用于开发。

8.4 运用brew在Mac OS X上停止Python安装和设置

对于Mac系统，你可以运用Homebrew软件包管理器来安装Python。它可以简化开发人员，研讨人员和迷信家所需的运用程序的安装。brew install命令用于安装另一个运用程序，例如安装python3或任何其他Python软件包，例如NLTK或SpaCy。

要安装最新版本的Python，你需求在终端中执行以下命令：

$ brew install python3

安装后，你可以经过运转以下命令来确认已安装的Python版本：

$ python3 --version Python 3.7.4

你还可以经过运转以下命令从命令行打开Python Shell：

$ python3

如今我们知道了如何在系统上安装Python，让我们深化研讨末尾数据分析所需的实践工具。

9. 本书中运用的软件

让我们讨论将在本书中运用的软件。在本书中，我们将运用Anaconda IDE来分析数据。在安装它之前，让我们了解什么是Anaconda。

Python程序可以轻松地在安装了该程序的任何系统上运转。我们可以在记事本上编写程序，然后在命令提示符下运转它。我们还可以在不同的IDE（例如Jupyter Notebook，Spyder和PyCharm）上编写和运转Python程序。

Anaconda是可收费获得的开源软件包，其中包含各种数据处理IDE和数个用于数据分析目的的软件包，例如NumPy，SciPy，Pandas，Scikit-learn等。Anaconda可以轻松下载和安装，如下所示：

〇从https://www.anaconda.com/distribution/下载安装程序。

〇选择你正在运用的操作系统。

〇在“ Python 3.7”部分中，选择32位或64位安装程序选项，然后末尾下载。

〇双击运转安装程序。

〇安装完成后，在“末尾”菜单中检查程序，或在“末尾”菜单中搜索Anaconda。

Anaconda还具有Anaconda Navigator，这是一个桌面GUI运用程序，可用于启动Jupyter Notebook，Spyder，Rstudio，Visual Studio Code和JupyterLab等运用程序：

如今，我们来看一下IPython，这是一种用于数据分析的基于shell的计算环境。

10. 运用IPython作为shell

IPython是一个交互式shell，等效于诸如Matlab或Mathematica的交互式计算环境。创建此交互式shell是为了停止疾速实验。对于正在执行小型实验的数据专业人员来说，这是一个非常有用的工具。

IPython Shell提供以下功能：

〇轻松访问系统命令。

〇轻松编辑内联命令。

〇制表符补全，可协助你查找命令并加快义务执行速度。

〇命令历史记录，可协助你查看以前运用的命令。

〇轻松执行外部Python脚本。

〇运用Python调试器轻松调试。

如今，让我们在IPython上执行一些命令。要启动IPython，请在命令行上运用以下命令：

$ ipython3

当你运转后面的命令时，将出现以下窗口：

如今，让我们了解并执行IPython Shell提供的一些命令：

〇历史记录命令：历史记录命令用于检查以前运用的命令列表。以下屏幕截图显示了如何在IPython中运用history命令：

〇系统命令：我们也可以运用感叹号在IPython Shell中，我们可以运用help命令打开可用命令列表。不必写功能的全名。你只需输入一些初始字符，然后按Tab键，它将找到你要查找的单词。例如，让我们运用ranging()函数。我们可以经过两种方式找到有关功能的协助：(!)从IPython运转系统命令。在此，将感叹号后的输入命令视为系统命令。例如:！date将显示系统的当前日期，而！pwd将显示当前工作目录：

〇编写函数：我们可以像在任何IDE中编写函数那样编写函数，例如Jupyter Notebook，Python IDLE，PyCharm或Spyder。让我们看一个函数的例子：

〇加入IPython Shell：你可以运用quit()或exit()或CTRL + D加入IPython Shell：

〇你还可以运用quit()命令加入IPython Shell：

在本大节中，我们研讨了可以在IPython Shell上运用的一些基本命令。如今，让我们讨论如何在IPython Shell中运用help命令。

10.1 阅读手册页

在IPython Shell中，我们可以运用help命令打开可用命令列表。不必写功能的全名。你只需输入一些初始字符，然后按Tab键，它将找到你要查找的单词。例如，我们运用ranging()函数。我们可以经过两种方式找到有关功能的协助：

〇运用协助功能：让我们键入help并写一些该功能的初始字符。之后，按Tab键，运用箭头键选择一个功能，然后按Enter键：

〇运用问号：我们也可以在函数称号后运用问号。以下屏幕截图显示了此示例：

在本大节中，我们研讨了为模块功能提供的协助和问号支持。我们还可以从库文档中获取协助。接上去我们讨论如何在Python库中获取用于数据分析的文档。

10.2 在哪里可以找到对Python数据分析库的协助和参考呢？

下表列出了我们在本章中讨论过的Python数据分析库的文档网站：

Packages/Software	Description
NumPy	https://numpy.org/doc/
SciPy	https://docs.scipy.org/doc/
Pandas	https://pandas.pydata.org/docs/
Matplotlib	https://matplotlib.org/3.2.1/contents.html
Seaborn	https://seaborn.pydata.org/
Scikit-learn	https://scikit-learn.org/stable/
Anaconda	https://www.anaconda.com/distribution/

你还可以在StackOverflow平台上找到与NumPy，SciPy，Pandas，Matplotlib，Seaborn和Scikit-learn相关的各种Python编程成绩的答案。你还可以在GitHub上提出与上述库有关的成绩。

11. 运用JupyterLab

JupyterLab是下一代基于Web的用户界面。它结合了数据分析和机器学习产品开发工具，例如文本编辑器，笔记本，代码控制台和终端。这是一个灵敏而弱小的工具，应该成为数据分析师工具包的一部分：

你可以运用conda，pip或pipenv安装JupyterLab。

要运用conda停止安装，我们可以运用以下命令：

$ conda install -c conda-forge jupyterlab

要运用pip停止安装，我们可以运用以下命令：

$ pip install jupyterlab

要运用pipenv停止安装，我们可以运用以下命令：

$ pipenv安装jupyterlab

在本节中，我们学习了如何安装Jupyter Lab。在下一节中，我们将重点引见Jupyter Notebooks。

12. 运用Jupyter Notebooks

Jupyter Notebook是一个Web运用程序，用于创建包含代码，文本，图形，链接，数学方程式和图表的数据分析笔记本。最近，社区推出了名为JupyterLab的下一代基于Web的Jupyter笔记本。你可以经过以下链接查看这些笔记本系列：

〇https://github.com/jupyter/jupyter/wiki/A-gallery-of-interestingJupyter-Notebooks

〇https://nbviewer.jupyter.org/

通常，这些笔记本用作教育工具或演示Python软件。

我们可以从纯Python代码或特殊笔记本格式导入或导出笔记本。这些笔记本可以在本地运转，或者我们可以经过运转公用的笔记本服务器使它们联机可用。某些Wakari，PiCloud和Google Colaboratory等云计算处理方案允许你在云中运转笔记本。

“ Jupyter”是Julia，Python和R的首字母缩写。最后，开发人员为这三种言语完成了它，但如今，它被用于其他各种言语，包括C，C ++，Scala，Perl，Go，PySpark和Haskell：

Jupyter Notebook提供以下功能：

〇它具有在阅读器中编辑代码的才能,并运用适当的缩进。

〇它具有从阅读器执行代码的才能。

〇它具有在阅读器中显示输入的功能。

〇它可以在单元格输入中呈现图形，图像和视频。

〇它具有导出PDF，HTML，Python文件和LaTex格式的代码的功能。

经过在Anaconda提示符下运转以下命令，我们还可以在Jupyter Notebook中同时运用Python 2和Python 3：

# For Python 2.7conda create -n py27 python=2.7 ipykernel# For Python 3.5conda create -n py35 python=3.5 ipykernel

如今，我们引见了各种工具和库，并且曾经安装了Python，接上去我们继续运用最常用的工具Jupyter Notebooks中的一些高级功能。

13. Jupyter Notebooks的高级功能

Jupyter Notebook提供了各种高级功能，例如键盘快捷键，安装其他内核，执行Shell命令以及运用各种扩展名停止更快的数据分析操作。让我们末尾并逐一了解这些功能。

13.1 键盘快捷键

经过在“协助”菜单中选择“键盘快捷方式”选项或运用Cmd + Shift + P快捷键，用户可以找到Jupyter Notebook外部可以运用的一切快捷键命令。这将使疾速选择栏出现，其中包含一切快捷键命令以及每个快捷键的简要阐明。该栏很容易运用，并且用户在遗忘某些东西时可以运用它：

13.2 安装其他内核

Jupyter可以为不同的言语运转多个内核。在Anaconda中为特定言语设置环境非常容易。例如，可以在Anaconda中运用以下命令来设置R内核：

$ conda install -c r r-essentials

然后应显示R内核，如以下屏幕截图所示：

13.3 运转shell命令

在Jupyter Notebook中，用户可以在Unix和Windows上运转shell命令。该shell提供了用于与计算机对话的通讯接口。用户需求在运转任何命令之前放（！）。

13.4 Notebook扩展

与基本的Jupyter笔记本相比，Notebook扩展（或nbextensions）添加了更多功能。这些扩展改善了用户的体验和界面。用户可以经过选择NBextensions选项卡轻松选择任何扩展名。

要运用conda在Jupyter Notebook中安装nbextension，请运转以下命令：

conda install -c conda-forge jupyter_nbextensions_configurator

要运用pip在Jupyter Notebook中安装nbextension，请运转以下命令：

pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install

假如你在macOS上遇到权限错误，只需运转以下命令：

pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install --user

一切可配置的nbextensions将显示在不同的选项卡中，如以下屏幕快照所示：

如今，让我们看一看Notebook扩展的一些有用的功能：

Hinterland：这为在单元格中停止的每个按键提供了一个自动完成菜单，其行为相似于PyCharm：

目录：此扩展显示侧边栏或导航菜单中的一切标题。它是可调整大小，可拖动，可折叠和可停靠的。

执行工夫：此扩展显示执行单元的工夫以及完成单元代码所需的工夫：

拼写检查器：拼写检查器检查并验证每个单元格中所写的拼写，并突出显示一切写错的单词。

变量选择器：此扩展跟踪用户的工作区。它显示了用户创建的一切变量的称号，以及它们的类型，大小，外形和值。

幻灯片：笔记本结果可以经过幻灯片停止传达。这是一个讲述故事的好工具。用户可以轻松地将Jupyter Notebooks转换为幻灯片，而无需运用PowerPoint。如以下屏幕截图所示，幻灯片可以运用视图菜单的单元格工具栏中的“幻灯片放映”选项启动：

Jupyter Notebook还允许你显示或隐藏幻灯片放映中的任何单元格。将“幻灯片显示”选项添加到视图菜单的单元格工具栏后，你可以在每个单元格中运用“幻灯片类型”下拉列表并选择各种选项，如以下屏幕截图所示：

嵌入PDF文档：Jupyter Notebook用户可以轻松添加PDF文档。PDF文档需求运转以下语法：

from IPython.display import IFrameIFrame('https://arxiv.org/pdf/1811.02141.pdf',width=700,height=400)

结果为以下输入：

嵌入YouTube视频：Jupyter Notebook用户可以轻松添加YouTube视频。要添加YouTube视频，需求运转以下语法：

from IPython.display import YouTubeVideoYouTubeVideo('ukzFI9rgwfU', width=700, height=400)

结果为以下输入：

这样，你如今就可以了解数据分析，它所停止的过程以及它所扮演的角色。你还学习了如何安装Python以及如何运用Jupyter Lab和Jupyter Notebook。在接上去的章节中，你将了解有关各种Python库和数据分析技术的更多信息。

14. 总结

在本章中，我们讨论了各种数据分析过程，包括KDD，SEMMA和CRISP-DM。然后，我们讨论了数据分析师和数据迷信家的角色和技能。之后，我们安装了NumPy，SciPy，Pandas，Matplotlib，IPython，Jupyter Notebook，Anaconda和Jupyter Lab，一切这些我们都将在本书中运用。你可以安装内置了NumPy，Pandas，SciPy和Scikit-learn的Anaconda或Jupyter Lab，而不是安装一切这些模块。然后，我们启动了向量加法程序，并了解了NumPy与其他库相比如何提供杰出的功能。我们探求了可用的文档和在线资源。此外，我们讨论了Jupyter Lab，Jupyter Notebook及其功能。

在下一章，即第二章“NumPy和Pandas”中，我们将深化研讨NumPy和Pandas，并讨论围绕数组和DataFrames的一些基本概念。

fay2999 · 2021-6-6 14:24:26

分享了

疤目妖 · 2021-6-6 14:25:09

分享了

红魔砍切尔斯基 · 2021-6-6 14:27:46

分享了

辣子牛排123 · 2021-6-6 14:29:30

分享了

1550216188 · 2021-6-7 20:46:44

不错不错，楼主快出来写点实战经验哇~

纪慧琪 · 2021-6-8 11:14:13

支持你哈...................................

		自动登录	找回密码
密码			立即注册

「Python数据发掘系列」1. Python 库入门

本帖子中包含更多资源

大神点评6

最近发表

公社版块

关注我们