数据处理与统计分析篇-day03-Numpy环境搭建
概述
python优势
Python作为当下最为流行的编程语言之一
-
可以独立完成数据分析的各种任务
-
数据分析领域里有海量开源库
-
机器学习/深度学习领域最热门的编程语言
-
在爬虫,Web开发等领域均有应用
常用开源库
numpy
NumPy(NumericalPython) 是 Python 语言的一个扩展程序库。是一个运行速度非常快的数学库,主要用于数组计算
包含:
-
一个强大的N维数组对象 ndarray
-
广播功能函数
-
整合 C/C++/Fortran 代码的工具
-
线性代数、傅里叶变换、随机数生成等功能
pandas
Pandas是一个强大的分析结构化数据的工具集, 它的使用基础是Numpy(提供高性能的矩阵运算), 用于数据挖掘和数据分析,同时也提供数据清洗功能
-
Pandas利器之 Series,是一种类似于一维数组的对象
-
Pandas利器之 DataFrame,是Pandas中的一个表格型的数据结构
matplotlib
Matplotlib 是一个功能强大的数据可视化开源Python库
-
Python中使用最多的图形绘图库
-
可以创建静态, 动态和交互式的图表
seaborn
Seaborn是一个Python数据可视化开源库
-
建立在matplotlib之上,并集成了pandas的数据结构
-
Seaborn通过更简洁的API来绘制信息更丰富,更具吸引力的图像
-
面向数据集的API,与Pandas配合使用起来比直接使用Matplotlib更方便
Anaconda
前面笔记中有安装过程
Anaconda简介
Anaconda 是最流行的数据分析平台,全球两千多万人在使用
-
Anaconda 附带了一大批常用数据科学包
-
Anaconda 是在 conda(一个包管理器和环境管理器)上发展出来的
-
可以帮助你在计算机上安装和管理数据分析相关包
-
包含了虚拟环境管理工具
Anaconda使用
通过命令行创建虚拟环境
conda env list # 显示所有沙箱(虚拟环境)
conda create -n 虚拟环境名字 python=python版本 #创建虚拟环境
conda activate 虚拟环境名字 #进入虚拟环境
conda deactivate 虚拟环境名字 #退出虚拟环境
conda remove -n 虚拟环境名字 --all #删除虚拟环境
Jupyter Notebook使用
启动
通过终端启动 Jupyter Notebook
conda activate 虚拟环境名字
jupyter notebook
基本使用
快捷键
命令模式,按ESC进入
-
Y,cell切换到Code模式
-
M,cell切换到Markdown模式
-
A,在当前cell的上面添加cell
-
B,在当前cell的下面添加cell
-
双击D:删除当前cell
编辑模式,按Enter进入
-
多光标操作:Ctrl键点击鼠标(Mac:CMD+点击鼠标)回退:Ctrl+Z(Mac:CMD+Z)
-
重做:Ctrl+Y(Mac:CMD+Y)
-
补全代码:变量、方法后跟Tab键
-
为一行或多行代码添加/取消注释:Ctrl+/(Mac:CMD+/)
两种模式通用快捷键
Shift+Enter,执行本单元代码,并跳转到下一单元
Ctrl+Enter,执行本单元代码,留在本单元
cell行号前的 * ,表示代码正在运行
掌握Markdown标题和缩进
pycharm连接jupyter
连接本地
开启本地jupyter notebook服务
新建pycharm项目, 在新项目下新建jupyter文件.
建好后设置
设置连接应用后, 提示输入密码或者token, 在命令行中粘贴token
测试执行, 输出路径为本地则连接成功
连接虚拟机
连接虚拟机的方式与上述步骤一致, 只需要将步骤3中的地址换为虚拟机的即可