当前位置：

社区首页

金融服务

投资理财

文章详情

量化投资，AI选股模型打造,第二季:数据获取和清洗

创作立场声明：原创

上次说了AI模型在投资领域的用途和可行性，今天来说一说训练模型所必须的数据如何获取和保存以及清洗

量化投资，AI选股靠谱么？实践经验告诉你,第一季:实盘回顾创作立场声明：本文章是本人原创，转载请注明，欢迎关注我~序言风险提示：本人不推荐购买任何本文中提到的股票，本模型为超短线交易，模型也好，基金经理也好，过往业绩不代表未来业绩，谁都无法预测未来，这只是一个几率游戏。先来简单回顾一下本人的投资经历，本人于11年左右开始炒股，最开始什么都不懂进去就是一通买闲人张三| 赞29 评论30 收藏128查看详情

数据获取

要训练模型，首先要有数据，数据越丰富越准确，模型预测结果越成熟可靠，那么原始训练数据如何获取和保存呢？

现在做量化的平台很多，我个人最常使用的是“掘金量化”和“聚宽量化”，聚宽如果使用的话需要免费申请，为期一年，到了会自动续期。

聚宽的数据可以直接通过python代码获取，具体可以查看官网，但是获取数量有限制，普通用户每天100w条

掘金量化则需要下载客户端，掘金的优势打通了券商通道，支持代码自动交易，代码自动交易我用过一段时间，交易滑点较大，择时难以把控，做超短线交易的目前还是手动下单更为稳妥一些。

掘金的数据获取官网说也有数量限制，但是根据我之前的使用经验，并没有限制，所以如果是第一次搭建基础数据库的话，掘金量化更合适一些，掘金支持的编程语言更多，有python，c++，matlab，c#，如果是新手建议直接学python，简单很多，老司机根据口味随意选取。

我们利用代码从上面这些平台获取到原始的历史交易数据，如股票的基本面数据，交易量数据等，资金数据等等所有你的模型需要的数据，需要存起来，存在你的本机或你的云服务器，方便以后使用。

用什么样的数据库存，取决于你的数据量，像我的话使用的数据精确到10分钟级，数据量不算太大，一个自然年的所有股票加起来也就2000多万条，mysql完全可以应付，就直接使用了简单易用的mysql+分表来存储，如果你需要的是分钟级别的，即每只股票每分钟的数据，那么每个自然年的数据量就会飙升到2亿+，mysql就有些吃力了，如果需要用到每笔交易数据，那数据量又飙升一个量级，如果是个人研究，我感觉分钟级别足够了，更多的数据你也没有相应算力的计算机去处理，当普通的关系型数据库无法满足海量数据的存储，可以选择分布式的kv数据库，如hbase。

数据的获取分为历史基础数据获取+新数据获取两个部分，初次建立数据库，需要去获取过去历史的所有数据，新数据则需要通过每天的自动化脚本去量化平台获取并更新到数据库。

数据清洗

因为种种原因，你从量化平台获取回来的数据可能有极小一部分是残缺的，如某些交易日的成交量没有，或者交易金额为0等，对于这种数据，我们需要通过自动化脚本读取并判断，把它们找出来给予修正，对于交易数据的某些值缺失，你可以去其他券商平台找全并手动填补。

如果全平台都没有的数据，我通常使用的方法是使用平均值填补，比如你获取的某个股票的数据缺少了2020年3月5号的成交量，如果成交金额有，那么可以通过“当日成交金额/当日平均价”求近似值进行填补，如果成交金额也没有，那么可以使用（2020年3月4号的成交量+2020年3月6号的成交量）/2 的方式计算一个大约的值，在很多情况下，少量的数据缺失会使模型的训练数据减少很多，因为一般用于股价预测的模型都是基于RNN，需要使用连续数据，比如连续60天的行情，如果你少了中间的一天的数据，就相当于少了60条可用的训练数据。

数据获取和清洗就分享到这里了，如果还没有入坑AI想学习的，可以参考我之前的文章：

普通人如何入门AI人工智能?最短学习路线分享创作立场声明：本文为本人原创，欢迎大家关注，后续分享更多好文学AI能干什么？首先说一下我个人的观点，我认为未来一定会有很多很多人工的重复工作会被AI替代，并且这个趋势无法逆转，不管是你想象得到的行业还是想象不到的行业，从实体到互联网，从工业到家用，历史的车轮滚滚向前，你不上车，就只能开11路了。很多闲人张三| 赞96 评论29 收藏1k查看详情

展开收起

+1 6 29 16

北方小鸡

喜欢数码，投资，旅行

50文章| 39爆料| 5687粉丝

关注

相关商品推荐

China Gold 中国黄金 GX4A001 财富金条 2g Au9999

837元起

看百科去购买

中国黄金京东投资金条Au9999 100g

55790元起

看百科去购买

中国黄金 Au9999黄金薄片财富投资金条10g

5780元起

看百科去购买

领丰金黄金投资金条 30g SGJTiao

暂无报价

看百科去购买

周大福金豆子福字小福豆黄金投资金(工费0) 约1g IF1689

635元起

看百科去购买

足金小金豆 1g

563元起

看百科去购买

工商银行 Au9999 如意金条 50g

暂无报价

看百科去购买

China Gold 中国黄金 GY4A022 鲤跃龙门千足金金条 7g

2849元起

看百科去购买

周生生 Charme系列足金爱心转运珠 93533C 约0.9

1014.8元起

看百科去购买

潮宏基盘缠金足金吊坠黄金转运串珠摆件女纪念定价投资金

547元起

看百科去购买

KOSE 高丝璀璨星河闪亮锆石多层缠绕戒指女潮轻奢高级感复古个性开口食指戒

29.9元起

看百科去购买

明泰 2011年-2022年纪念币套装 28枚

368元起

看百科去购买

中鑫珠宝中式婚嫁黄金凤钗凤冠女999足金凤凰头饰嫁妆结婚金首饰凤冠110克（多退少补）

74830元起

看百科去购买

CHOW TAI FOOK 周大福 R19394 福星宝宝黄金金币 0.2g Au999

暂无报价

看百科去购买

周生生金片足金生生有礼财运龙压岁钱金片94306D

340.2元起

看百科去购买

领丰金心想事成卡通龙金条足金9999黄金生肖龙年投资金条本命年送人 10g

5240元起

看百科去购买

16评论

精彩
最新

饮涧癫猿

举报踩评论(0)

请教下，你的策略是不是平台方都会看的到？

2021-04-01

赞

回复

校验提示文案

提交

北方小鸡

作者

饮涧癫猿

举报踩评论(0)

存本地的，不是云

2021-04-01

赞

回复

校验提示文案

提交

饮涧癫猿

北方小鸡

作者

举报踩评论(0)

此类产品或工具是不是分本地和云上两类？类似京东、金字塔这种，属于本地还是在云上的？

2021-04-01

赞

回复

校验提示文案

提交

还有2条回复

收起所有回复
饮涧癫猿

举报踩评论(0)

另外请教关于数据获取，我记得之前有看到说用爬虫在雅虎、新浪爬数据的，还有逆向解码通达信的，这种方式和在聚宽的方式有什么差异么？谢谢！

2021-04-01

赞

回复

校验提示文案

提交

北方小鸡

作者

饮涧癫猿

举报踩评论(0)

有免费的api为啥要用爬虫

2021-04-01

赞

回复

校验提示文案

提交

饮涧癫猿

北方小鸡

作者

举报踩评论(0)

不懂嘛，所以请教。

2021-04-02

赞

回复

校验提示文案

提交

收起所有回复
邪恶小嗡嗡

举报踩评论(0)

已经根据您的第一篇文章，学习线性代数中

2021-04-01

赞

回复

校验提示文案

提交

北方小鸡

作者

邪恶小嗡嗡

举报踩评论(0)

加油呀加油

2021-04-01

赞

回复

校验提示文案

提交

收起所有回复
奔IV程序猿

举报踩评论(0)

向你学习。马上要失业，研究研究。

2021-03-31

赞

回复

校验提示文案

提交
[已注销]

举报踩评论(0)

我比较好奇的是题主如何找到和发现某个策略的，有了策略然后才需要数据去验证和测试吧。

2021-04-12

赞

回复

校验提示文案

提交
邪恶小嗡嗡

举报踩评论(0)

在看微积分的视频了。建议大佬后期做个视频手把手的教学视频，我相信0基础的同学还是挺多的，包括我。谢谢了

2021-04-12

赞

回复

校验提示文案

提交
anthonylee0033

举报踩评论(0)

感觉入门有点困难

2021-04-16

赞

回复

校验提示文案

提交
GHOSTVVVV

举报踩评论(0)

请问下什么样的显卡适合训练神经网络，显存12G够不够

2023-03-14 · 上海

赞

回复

校验提示文案

提交
kof9898

举报踩评论(0)

你好，能说一下你现在这个量化交易ai学习效果怎么样了吗？应用于实用准确率如何？

2023-03-26 · 辽宁

赞

回复

校验提示文案

提交

kof9898

举报踩评论(0)

你好，能说一下你现在这个量化交易ai学习效果怎么样了吗？应用于实用准确率如何？

2023-03-26 · 辽宁

赞

回复

校验提示文案

提交
GHOSTVVVV

举报踩评论(0)

请问下什么样的显卡适合训练神经网络，显存12G够不够

2023-03-14 · 上海

赞

回复

校验提示文案

提交
anthonylee0033

举报踩评论(0)

感觉入门有点困难

2021-04-16

赞

回复

校验提示文案

提交
邪恶小嗡嗡

举报踩评论(0)

在看微积分的视频了。建议大佬后期做个视频手把手的教学视频，我相信0基础的同学还是挺多的，包括我。谢谢了

2021-04-12

赞

回复

校验提示文案

提交
[已注销]

举报踩评论(0)

我比较好奇的是题主如何找到和发现某个策略的，有了策略然后才需要数据去验证和测试吧。

2021-04-12

赞

回复

校验提示文案

提交
邪恶小嗡嗡

举报踩评论(0)

已经根据您的第一篇文章，学习线性代数中

2021-04-01

赞

回复

校验提示文案

提交

北方小鸡

作者

邪恶小嗡嗡

举报踩评论(0)

加油呀加油

2021-04-01

赞

回复

校验提示文案

提交

收起所有回复
饮涧癫猿

举报踩评论(0)

另外请教关于数据获取，我记得之前有看到说用爬虫在雅虎、新浪爬数据的，还有逆向解码通达信的，这种方式和在聚宽的方式有什么差异么？谢谢！

2021-04-01

赞

回复

校验提示文案

提交

北方小鸡

作者

饮涧癫猿

举报踩评论(0)

有免费的api为啥要用爬虫

2021-04-01

赞

回复

校验提示文案

提交

饮涧癫猿

北方小鸡

作者

举报踩评论(0)

不懂嘛，所以请教。

2021-04-02

赞

回复

校验提示文案

提交

收起所有回复
饮涧癫猿

举报踩评论(0)

请教下，你的策略是不是平台方都会看的到？

2021-04-01

赞

回复

校验提示文案

提交

北方小鸡

作者

饮涧癫猿

举报踩评论(0)

存本地的，不是云

2021-04-01

赞

回复

校验提示文案

提交

饮涧癫猿

北方小鸡

作者

举报踩评论(0)

此类产品或工具是不是分本地和云上两类？类似京东、金字塔这种，属于本地还是在云上的？

2021-04-01

赞

回复

校验提示文案

提交

还有2条回复

收起所有回复
奔IV程序猿

举报踩评论(0)

向你学习。马上要失业，研究研究。

2021-03-31

赞

回复

校验提示文案

提交

提示信息

取消

确认

评论举报

垃圾广告！低俗色情！人身攻击！疑似水军评论！其他有害！

相关文章推荐

从有存款后，我变了！

▼嗨，你好呀，我是简简。今天的心情有点emo，一早家里人又找我借钱，虽然我非常坚决地拒绝了... 阅读全文

+1 2 1 7
37岁姐姐的9个“抠搜习惯”，3年存了18万，网友：实名羡慕了

不管承不承认，消费真的下行了。不说别人，就说我自己，虽然工资没少，但就是“不敢买”了。曾经... 阅读全文

+1 1 3 1
本站首晒，中国极地科学考察40周年金银纪念币。

一周前去首饰店陪媳妇儿看金饰，看到首饰店的金价已经飙到近700了，再加上还要只需每克几十到... 阅读全文

+1 2 0 0
电影投资什么时候开始分红？收益权怎么保证？

在当今社会中，电信及各类投资诈骗案件频发，致使众多人士不幸遭受经济损失。许多受害者在经历诈... 阅读全文

+1 0 0 1
无痛存钱的六个习惯

1、出门自带我越来越不愿意花小钱，每次出门自带充电宝和纸巾，省下的2元，5元也可以积少成多... 阅读全文

+1 0 1 0
AI理财哪家强？实测：垂类AI“财商”更高

理财圈可太让人迷惑了！关注投资的小伙伴近期应该经常刷到相关热搜，黄金最热闹，一会儿是黄金白... 阅读全文

+1 0 0 1
抗衰老市场迎来繁荣：NMN概念股飙升与消费级长寿产品Aiaom的成功之道

抗衰老市场迎来繁荣：NMN概念股飙升与消费级长寿产品Aiaom的成功之道近期，以“延缓衰老... 阅读全文

+1 0 0 0
43岁阿姨3年攒了30万，分享25条省钱攻略，网友：省钱，真有用！

一位43岁的阿姨，凭着一股坚韧不拔的毅力，用她手中的“私房钱”点燃了生活的火花。在有限的收... 阅读全文

+1 0 0 0
投资贵金属期货不能出金怎么办？平台正规吗？

在投资市场环境不断优化的当下，大量投资者涌入市场，尤其是对贵金属交易感兴趣的新手们，经常偏... 阅读全文

+1 0 0 0
保险知识篇四百三十：一问就说是黄金投资，一看买的是首饰……

首发 | 公众号「吐逗保」大家好，我是一本正经的吐槽君。最近一哥们结婚，闲聊的时候就谈... 阅读全文

+1 0 0 0
被神化的“舍利子”，成了“敛财神器”，除了圈钱，一无是处！

自从释迦牟尼在2600年前创立了佛教，这一古老的宗教就在世界各地传播开来。为了适应不同的地... 阅读全文

+1 0 0 0
把钱从银行取出来，将现金存在家里，是机智还是愚蠢？

随着智能手机的广泛普及和移动互联网的飞速发展，数字支付无疑已经成为我们生活中不可或缺的一部... 阅读全文

+1 0 0 0
网络恋爱陷进投电影、炒期货圈套，如何挽回损失？

在数字化时代，网络拉近了人与人之间的距离，网友恋爱已变得日益普遍。然而，这一现代交友方式也... 阅读全文

+1 0 0 0
美国科技股崩盘：苹果、微软、英伟达、谷歌等7巨头，蒸发7万亿

前几天，ASML发布了一份财报，数据显示2024年一季度，业绩非常不好。营收53亿美元，同... 阅读全文

+1 0 0 0
中行居然偷偷送钱！22.4元微信立减金，我先偷偷领了！

我是你们的小伙伴【少枫511】，今天又来跟大家分享好价啦(≧∇≦)/！大家的随手点赞收藏，... 阅读全文

+1 51 632 59
速冲，亲测有效，中国银行，交电费满30-12元，38购50猫超卡，90购100京东E卡

大家好我是非常喜欢分享好价的糖糖，喜欢和我一样买买买的同学可以关注我，每天和你分享高性价比... 阅读全文

+1 56 569 80
网上国网交电费20-5！

Hi，我是卡圈情报的编辑小报同学！欢迎大家关注本账号，日常更新各种优惠信息、活动！网上国... 阅读全文

+1 43 445 31
云闪付五一活动！快乐省钱出行

云闪付五一活动，每天10点开始放名额，截止到5月10日。活动路径：云闪付APP-搜“锦绣五... 阅读全文

+1 13 418 27
88VIP有升级！招行15元还款券！农行100元刷卡金！广发17元消费金！

1、招行15元还款券限实名注册一网通的招行储蓄卡客户（当年新户或2023年12月末资产<5... 阅读全文

+1 23 360 31
有中国银行卡的，过来尝试一下吧，我中了8元的微信立减金。我感觉应该是大概率都可以中奖。

写这篇文章之前，我先说两个条件（因素）1.我在苏州这边，办的是苏州的中国银行卡。所以我不确... 阅读全文

+1 107 37 209

更多精彩文章

保险知识篇四百三十二：哦吼，好医保停售！

首发 |「吐逗保」大家好，我是一本正经的吐槽君。没错！第一批好医保6年保证续保版，已经... 阅读全文

+1 0 1 0
网络恋爱陷进投电影、炒期货圈套，如何挽回损失？

在数字化时代，网络拉近了人与人之间的距离，网友恋爱已变得日益普遍。然而，这一现代交友方式也... 阅读全文

+1 0 0 0
无痛存钱的六个习惯

1、出门自带我越来越不愿意花小钱，每次出门自带充电宝和纸巾，省下的2元，5元也可以积少成多... 阅读全文

+1 0 1 0
43岁阿姨3年攒了30万，分享25条省钱攻略，网友：省钱，真有用！

一位43岁的阿姨，凭着一股坚韧不拔的毅力，用她手中的“私房钱”点燃了生活的火花。在有限的收... 阅读全文

+1 0 0 0
把钱从银行取出来，将现金存在家里，是机智还是愚蠢？

随着智能手机的广泛普及和移动互联网的飞速发展，数字支付无疑已经成为我们生活中不可或缺的一部... 阅读全文

+1 0 0 0
电影投资什么时候开始分红？收益权怎么保证？

在当今社会中，电信及各类投资诈骗案件频发，致使众多人士不幸遭受经济损失。许多受害者在经历诈... 阅读全文

+1 0 0 1
AI理财哪家强？实测：垂类AI“财商”更高

理财圈可太让人迷惑了！关注投资的小伙伴近期应该经常刷到相关热搜，黄金最热闹，一会儿是黄金白... 阅读全文

+1 0 0 1
美国科技股崩盘：苹果、微软、英伟达、谷歌等7巨头，蒸发7万亿

前几天，ASML发布了一份财报，数据显示2024年一季度，业绩非常不好。营收53亿美元，同... 阅读全文

+1 0 0 0
投资贵金属期货不能出金怎么办？平台正规吗？

在投资市场环境不断优化的当下，大量投资者涌入市场，尤其是对贵金属交易感兴趣的新手们，经常偏... 阅读全文

+1 0 0 0
保险知识篇四百三十：一问就说是黄金投资，一看买的是首饰……

首发 | 公众号「吐逗保」大家好，我是一本正经的吐槽君。最近一哥们结婚，闲聊的时候就谈... 阅读全文

+1 0 0 0
从有存款后，我变了！

▼嗨，你好呀，我是简简。今天的心情有点emo，一早家里人又找我借钱，虽然我非常坚决地拒绝了... 阅读全文

+1 2 1 7
本站首晒，中国极地科学考察40周年金银纪念币。

一周前去首饰店陪媳妇儿看金饰，看到首饰店的金价已经飙到近700了，再加上还要只需每克几十到... 阅读全文

+1 2 0 0
抗衰老市场迎来繁荣：NMN概念股飙升与消费级长寿产品Aiaom的成功之道

抗衰老市场迎来繁荣：NMN概念股飙升与消费级长寿产品Aiaom的成功之道近期，以“延缓衰老... 阅读全文

+1 0 0 0
37岁姐姐的9个“抠搜习惯”，3年存了18万，网友：实名羡慕了

不管承不承认，消费真的下行了。不说别人，就说我自己，虽然工资没少，但就是“不敢买”了。曾经... 阅读全文

+1 1 3 1
被神化的“舍利子”，成了“敛财神器”，除了圈钱，一无是处！

自从释迦牟尼在2600年前创立了佛教，这一古老的宗教就在世界各地传播开来。为了适应不同的地... 阅读全文

+1 0 0 0
电影投资认购陷阱！《逃出春天里》众筹骗局！

免责声明：本文转载自公众号“诚惠律法”，内容为作者“诚惠律法”原创，内容涉及的相关法律条款... 阅读全文

+1 0 0 0
省钱院长篇四十九：上闹钟！今晚大毛预约（龙钞）、建行42元大毛已到账、工行2个立减金！

01、提醒！今晚大毛预约！亲爱的朋友们，错过了龙年纪念币和纪念钞的首次预约？别担心，机会再... 阅读全文

+1 3 12 0
电影投资正规可靠吗？份额认购害人不浅！已有大量投资者上当受骗！

免责声明：本文转载自公众号“天蓝梦想”，内容为作者“天蓝梦想”原创，内容涉及的相关法律条款... 阅读全文

+1 0 1 0
投顾交服务费被骗怎么办？服务费荐股软件费如何退款？

最近很多投资咨询相关的投顾被骗问题，就是很多投资顾问公司以高额收益为由，诱导投资者缴纳高额... 阅读全文

+1 0 0 0
买酒送原始股投资上市真假?警惕新型投资陷阱！你中招了吗？

最近，总有人问：“某某公司原始股，要不要投呢？，对于这种问题，觉得不能直接说要或者不要。尽... 阅读全文

+1 0 0 1