#mac# 篇三:自建Superset数据可视化平台并创建疫情地图网站(上)

2020-03-08 22:34:04 19点赞 181收藏 23评论

因为文章内容太长了,防止大家看的疲惫,所以这篇文章分为上下集。上半部分,会讲一下如何安装superset mac docker版,以及基本介绍superset的功能。 下半集教大家如何用superset制作一个疫情地图。

在前言之前,我们先看一下效果吧。

Image 4Image 4

前言 & Superset介绍

数据可视化话可以说是非常实用的一个技能,无论是Excel图标,Python可视化,都可以让大量的数据变得不是那么枯燥,让人一眼就能看出数据所反应的问题。如果你擅长vba,即使用Excel也能做出非常有用的动态可视化图表,相比来说Python的确更适合用来数据可视化。

基于我的浅薄理解,数据可视化就是Business Intelligence, 常见的商业BI工具包括Tableau,Power BI等等。 而有些公司则自己开发BI工具,比如我们要讲的Superset,就是Airbnb的工具。

BI工具的Dashboard功能可以方便我们动态的查看想要的细节,比如说今年疫情新闻的丁香医生疫情地图,从地图上,我们可以看出每个省份的疫情状况,点击省份,则又可以查看市级情况,只要Dashboard做好了设定,可以一层一层的深入了解。

商用BI dashboard就是这么一个设置好了层级,可以逐步分析发现问题的平台。企业一般根据需求预设及格Dashboard,连接数据库,实时更新数据,寻找问题。

数据可视化也好,数据分析也好,在商业环境下,其实更多是配合需求讲出一个故事来。根据需求,可以回避不好的数据,或者编造一个自圆其说不易戳穿且有数据为证的谎言。此处推荐我正在看的一本书《简单统计学:如何识别一本正经的胡说八道》,你可在学习如何识别伪数据分析的同时掌握一下如何一本正经胡说八道的技能,并反应到ppt当中,我相信对于职业生涯还是很有帮助的。

那么我为什么不用Python呢,额,是因为我自学的水平有点烂,所以挑了这个自带了很多可视化效果的Superset,你也可以选择其他的开源数据平台,或是试用Tableau

Superset自带了近二三十种可视化模板,可以根据需求自由调配。通过模板组合称dashboard即可实时使用。

Superset的层级结构如下:

  • 第一个单位是table(导入database并不能直接实用,你只能每次使用一张表,当然还有一个骚操作,你可以在SQL Lab功能中筛选出多张表之间的数据生成你需要的表)

  • 第二个单位是charts(以前叫slices) (Charts就是你根据单个table生成的视图模板,每次只能生成一个,你可以用同一张表生成不同的charts)

  • 第三个单位就是dashboard了 (由Charts汇聚而成,你可以添加筛选工具,细化你需要了解的内容)

希望这些内容能让你了解到数据可视化,BI以及superset的一些基本知识,我的理解如果有出错的地方,也欢迎各位大佬指正。

那接下来,就从目录开始,安装并开始基本使用。

目录

  • macOS docker

  • Superset安装

  • 创建admin账号

  • 基本使用(功能介绍)

  • 基本使用-csv上传

  • 基本使用-数据库连接

  • 案例-新冠肺炎可视化分析设置

    • 基本使用-数据清理及格式

    • 基本使用-可视化

    • 基本使用-Dashboard

macOS Docker

关于如何使用macOS作为服务器,请参考我之前的系列贴mac 篇一:macOS server + Docker,我的家庭服务解决方案

大部分功能都能在mac docker上很好的运行,但是纯host模式的网络模式镜像不适用于mac docker。如果你已经有了基本的docker使用经验,可以直接开始了,当然,没有相关经验,也可以从下载一个dmg开始,Mac Docker下载。因为我会提供最直接的代码供大家复制黏贴。

Superset安装

首先交代一下,我使用的是Dockerhub上的现成镜像amancevice/superset,点击链接可以查看原文。

以下内容全部在termianl中操作

拉取镜像:

docker pull amancevice/superset

需要注意下面的命令,『 -v /你的/数据库储/路径 』,这句请修改为你本机数据库存储路径,或者你可以直接将容器完全连通本机全盘;另外如果需要换端口,请修改『 -p 8021 』,创建容器:

docker run -d --name superset -p 8021:8088 -v /你的/数据库储/路径:/home/superset amancevice/superset

至此,Superset已完成安装,需要注意,此时你虽然可以访问192.xx.xx.xx:8021了,但你并没有用户名和密码。

创建admin账号

以下内容全部在termianl种操作

创建admin,请直接输入一下命令:

docker exec -it 容器id fabmanager create-admin --app superset

系统会提示你创建密码,两次确认即可。

我在windows上配置完密码之后,还初始化了superset自带的世界人口数据库案例,鉴于我之后会以一个实例来讲,我就不多次一举了,当然,如果你想看看,请执行以下命令:

docker exec -it 容器id superset db upgrade

至此,你可以打开并登陆Superset了

SupersetSuperset

基本使用(功能介绍)

  • Security:

Superset毕竟是Airbnb这么一个商业公司使用的平台。所以在权限这块还是考虑的算是挺全的,虽然没有SSO等复杂对接。 但他的权限组成方式是类似于SAP的角色代码(由302个基本权限 组成角色权限 再分配给用户),还包括一些简单的日志审计功能。 个人使用无所谓了,对于团队或公司使用,不同职能查看不同的数据,不同的dashboard,团队使用是够了,大型公司大量Dashboard及数据接入是否能够正常运行,我就不确定了。

  • Manage

包含了dashboar样式的导入,css样式的自定义等,这方面我也不是很懂了,主要是界面查看的自定义。我就不做解释了。

  • Sources

这个比较重要,是所有数据连接的关键点, 你有两个选择,连接数据库,或者是上传CSV,这两个内容会在后面讲。 table选项则是我们进去自定义数据分析方式的入口,主要就是这个。至于Druid,是海量数据下进行交互式实时数据展现的 BI/OLAP 工具(我也不懂,懵逼,我还没用到这个地步)。

  • Charts

Charts存储着我们对原始数据生成的一些展示方式,就像这样。我们可以选择不同的展示方式,比如下图种的时间折线图。再通俗点,就是先筛选excel的数据,再做了个折线图。使用Superset,你可以拥有很多看起来更高大上的,比如蛇形图,比如城市热点图等等。

ChartsCharts

  • Dashboard

BI,或者说是数据分析的精华,由不同的Charts组成,根据不同的数据类型设计不同的Charts,然后合并到一起,更方便的从多个纬度查看数据情况。这里就放一张superset的官宣图吧。

bank_dashbank_dash

  • SQL Lab:

Superset一直被诟病的一点是只能使用单张表格的数据,excel都能多表vlookup呢,你一个大数据平台居然没这功能。无意啰嗦两句,superset本身就是作为一个公司内部某部门的需求开发出来的,人家当时的需求分析的数据可能就只是在某个数据库的某一张表里。现在开源以后有了SQL Lab,干嘛呢?需要跨表跨数据库?可以曲线救国,从多张表中用sql select出你需要的数据,生成一张新的表,用excel的话来说,就是vlookup出多张表的数据,然后创建一个新的表,用这张新表去做分析。

Superset的基本功能介绍先到这里,接下来,开始数据导入。

基本使用-csv上传

我会讲到如何去关联数据库,但对于初学者,或者不擅长数据库的人来说(妄加断言,大部分真正有BI需求的人,几乎都不懂数据库)

所以,我们从简单的CSV上传开始说吧。也没那么简单,一般中文系统中文excel下导出的csv往往编码不对,所以,你无法成功的向Superset中导入csv。

  • 数据清理,这个非常重要,擅长使用sql语句清理数据库的,相信大部分人都做不到,所以,在学习过程中,可以选择excel整理完成后到处 utf-8格式的csv

  • macOS 导出 utf-8 csv,非常简单,另存为 - 格式 - csv(utf-8)

  • Windows,请参考百度经验希望没有ETC跑出来指责我为什么不用高贵的Google而是百度

Screen Shot 2020-03-05 at 10.24.04 PMScreen Shot 2020-03-05 at 10.24.04 PM

  • 接下来,我们就可以上传这个csv了,在superset种选择 Sources - Upload a CSV - table name(随便填)- choose file(选择你的csv)- Database(main就行,反正是练习),其他选项基本都不用改,但是,如果你希望有准确的时间的话,因为superset docker的时间会处于 0 时区,和我们差了8个小时。请修改 offset,填一个8就完事了。

时区时区

好了,点击upload,完成我们的上传。接下来就可以去Sources - Tables当中折腾我们的数据了。

基本使用-数据库连接

数据库连接,在Sources - Databases当中,选择添加,以SQLAlchemy URI关联数据库。作为使用Superset自学数据可视话的我来说。我也就用了一个sqlite尝试了,更多的数据库连接方式,请查看SQLAlchemy指引

sqlite:////home/superset/home-assistant_v2.db

在数据库连接过程中,我建议你勾选allow csv upload,其余不用设置(应该说是按需设置)。如下图:

关联数据库关联数据库

那在下一期的文章,我将教大家利用现有数据制作疫情地图网站。



展开 收起

快熊K730H RDP云电脑云终端VNC零客户机工作站房产中介产线拖机盒远程桌面浏览器终端机 K730H(RDP版) 1G/8G

快熊K730H RDP云电脑云终端VNC零客户机工作站房产中介产线拖机盒远程桌面浏览器终端机 K730H(RDP版) 1G/8G

399元起

Dongtintech工控机IPC-610L酷睿2/4/6代支持独立显卡扩展卡主板自动化视觉系统可品 IPC-610L-A21 I5 2400/4G/500GSSD/250W

Dongtintech工控机IPC-610L酷睿2/4/6代支持独立显卡扩展卡主板自动化视觉系统可品 IPC-610L-A21 I5 2400/4G/500GSSD/250W

3798元起

DELL 戴尔数据记录磁带LTO4/LTO5/LTO6/LTO7/LTO8存储数据磁带库 LTO7(6TB-15TB)

DELL 戴尔数据记录磁带LTO4/LTO5/LTO6/LTO7/LTO8存储数据磁带库 LTO7(6TB-15TB)

990元起

联想(Lenovo)开天M740J台式机 国产信创自主可控 飞腾D2000 单主机(麒麟GF版系统) 16G|512G普通版| 2G显卡+WPS+OFD

联想(Lenovo)开天M740J台式机 国产信创自主可控 飞腾D2000 单主机(麒麟GF版系统) 16G|512G普通版| 2G显卡+WPS+OFD

8320元起

倍控N5105四核散热风扇版软路由爱快linux主机工控机电脑win11四网口带串口双4K显示嵌入式4G插槽 8G内存+128G固态 G31灰色风扇款-N5105 M.2 i226网卡

倍控N5105四核散热风扇版软路由爱快linux主机工控机电脑win11四网口带串口双4K显示嵌入式4G插槽 8G内存+128G固态 G31灰色风扇款-N5105 M.2 i226网卡

949元起

倍控N100电脑8505主机I7-1265U六网卡软路由工控机爱快软路由ROS维盟12代 G31F风8505六网 双DDR5 准系统 无内硬盘

倍控N100电脑8505主机I7-1265U六网卡软路由工控机爱快软路由ROS维盟12代 G31F风8505六网 双DDR5 准系统 无内硬盘

暂无报价

联想电脑台式一体机 启天A970 I5-13420H 8G 512GB固态 集成 23.8英寸台式一体机 摄像头 内置音响 WIN11家庭版

联想电脑台式一体机 启天A970 I5-13420H 8G 512GB固态 集成 23.8英寸台式一体机 摄像头 内置音响 WIN11家庭版

暂无报价

倍控四核N5105工控机11代迷你J4125电脑主机软路由防火墙开4G全网通SIM卡槽J6413爱快 G31机箱J4125四网226带M.2固态 准系统+电源

倍控四核N5105工控机11代迷你J4125电脑主机软路由防火墙开4G全网通SIM卡槽J6413爱快 G31机箱J4125四网226带M.2固态 准系统+电源

570元起

联想(Lenovo)SR588服务器主机2U机架式国产机型AI算力GPU深度学习1颗银牌4210R 32GB内存 3*1.2TB raid卡

联想(Lenovo)SR588服务器主机2U机架式国产机型AI算力GPU深度学习1颗银牌4210R 32GB内存 3*1.2TB raid卡

17899元起

倍控软路由N5105工控机N100电脑迷你整机服务器云桌面2.5G网卡2500M防火墙爱快7505 准系统+电源 G31黑N100六网226-DDR5内存M.2接口

倍控软路由N5105工控机N100电脑迷你整机服务器云桌面2.5G网卡2500M防火墙爱快7505 准系统+电源 G31黑N100六网226-DDR5内存M.2接口

759元起

Dongtintech工控机ipc-610L酷睿6/7/8/9代机器视觉智慧工地节能认证电脑 DT-610L-BH31CMA I5-6500/8G/500GSSD/300W

Dongtintech工控机ipc-610L酷睿6/7/8/9代机器视觉智慧工地节能认证电脑 DT-610L-BH31CMA I5-6500/8G/500GSSD/300W

3268元起

盈驰 微型工控主机双网口双串口嵌入式迷你工控机机器视觉全铝无风扇低功耗mini PC小型台式机电脑 i3 7100U+8G+128G【232/485】 酷睿i3 7100U+8G+128G固态硬盘

盈驰 微型工控主机双网口双串口嵌入式迷你工控机机器视觉全铝无风扇低功耗mini PC小型台式机电脑 i3 7100U+8G+128G【232/485】 酷睿i3 7100U+8G+128G固态硬盘

798元起

联想服务器工作站设备配件 32G DDR5 4800MHz

联想服务器工作站设备配件 32G DDR5 4800MHz

暂无报价

浪潮(inspur)NP3020M5塔式服务器小型云存储企业网络文件打印erp电脑 至强2224 |16G|2TB|双千兆|300W

浪潮(inspur)NP3020M5塔式服务器小型云存储企业网络文件打印erp电脑 至强2224 |16G|2TB|双千兆|300W

7955元起

联想(Lenovo)ThinkSystem服务器工作站主机硬盘 企业级配件 2.5英寸 1.2TB 10K SAS 热插拔 00YK016

联想(Lenovo)ThinkSystem服务器工作站主机硬盘 企业级配件 2.5英寸 1.2TB 10K SAS 热插拔 00YK016

1450元起

联想P900 高性能商用台式机工作站游戏设计师主机 I5-13400 32G 1T+2T RTX 4060TI 8G I5-13400(10核 2.5GHz)

联想P900 高性能商用台式机工作站游戏设计师主机 I5-13400 32G 1T+2T RTX 4060TI 8G I5-13400(10核 2.5GHz)

11599元起
23评论

  • 精彩
  • 最新
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
181
扫一下,分享更方便,购买更轻松