不就是想找个价格
每次写统计分析肯定会让我想粮价这个事情。除此以外,我对这个东西一点都不关心,但每次要写的时候我都会很为这个发愁,应该去哪里找到这些粮价呢?这一次因为我玩得比较大,我需要的是2018年7月到2023年8月的粮价。横跨那么多年,想想都觉得应该很疯狂,真的要去找的时候感觉更疯狂。粮价这种事情以前我也有找过,每一次都是临急抱佛脚,但是抱完佛脚以后,我也是有坚持过一段时间持续去人肉爬虫,但是爬了一段时间以后没有继续下去。在我还可以人肉爬的时候,那些价格大概一周出一次。对我来说一周这个频率太长了,所以过上一段时间就会忘记,而且别人出价格的时间还不那么稳定,虽然说是一周一次,但是说不准就是哪一天,可能是周一可能是周三,也可能是后补回去。被这样拖来拖去,久而久之我也就不记得了。这一次因为要找的跨度很大,我要做图的话,就没有必要把数据找那么细,大概一个月一个价格就行了,至于如果一个月变动很大,那就人肉平均一下,毕竟5年的价格下来,即便以月为单位也是个不小的数目,我需要表达的是整体趋势。
如果粮价时间跨度不是很大,只需要一年或者半年的话,一个地方大概就能把东西找齐,但现在我发现在一个地方找,根本找不全,最根本的原因是有些之前我人爬价格的地方做到某一年就不再干下去了。有些有新价格,但是最早的那个是2022年。有些有2018年的价格,但是他们干到2021年就不干了。还有一些地方比较屌丝,在网页上他们要会员注册,然后给钱成为VIP,才能看到数据。在公众号上他们展示了一些试看文章。试看文章里有我需要的数据,但问题是那个是周报,这就意味着,如果我要拿到2018年的数据我起得起码得翻到2019年头,因为通常那个微信公众号的试看文章展示的图表是一年的玉米价格曲线。显然公众号就只是吊一下你的胃口,最终他们想做的是你去他们的PC版网站注册并交会员费,于是我也就只能用最常规的方式去刷取他们微信公众号上面的历史文章。历史文章这种东西理论上是无限的,但那是一个动态加载的过程。那个历史文章的页面比较屌丝,必须要在微信的浏览器上打开,一般的浏览器无法直接打开。这就意味着实际上在打开的过程中我个人的账号给绑定了,限制了我的刷新频率。在那个历史页面,你只要点击进去了,就会直接到达那个文章,当你返回的时候又回到了一开始的那个列表。我需要加载很久很久以前的历史文章,所以我就得不断滚动、不断加载。当我好不容易到点2020年初的文章的时候,一个不小心点错了,我应该在广东玉米,结果我却点了饲料的,文章打开了,但是却不是我想要的,再次进去重新刷鼠标,却发现无论如何都再也load不出我要的列表。不仅仅是电脑端无能,手机端也被限制了,所以估计可能好长一段时间我都不能再加载到这个公众号上面的历史文章列表。如果腾讯非常狠,可能这个公众号上的历史文章列表我永远都刷不开了。所以为什么会有这么屌丝的设定呢?明明文章是有的,但是你却看不到。我明明只想要以前的文章,但是你永远都是用倒序去排列,不允许我对时间进行任何筛选,这样的话你就强迫我不得不一次又一次动态加载你的列表,加载多了你又禁止我这个行为。如果你有记录过我这个加载的意图的话,就会发现我并不是要打开你们所有的文章。我也没有复制粘贴偷龙转凤之类。这样的防止爬虫方案直接把我这种本来用途很正路的用户给挡在门外。
数据库网站很多,各种类型都有,但是很多连试看的机会都没有,我怎么知道你们有的数据就是我想要的呢?现在的竞价交易在国家平台,所以国家肯定有所有竞价交易的数据。为什么国家就不能提供一个查询渠道让大众去了解行情呢?
每当遇到收费的数据库都会让我有很强的破解欲望,虽然我知道我根本做不到。