2023-09
21

找事干

By xrspook @ 8:59:11 归类于: 烂日记

整个科室的人都出去培训了,除了我,所以一整天下来很安静,几乎没有人过来打搅我。只有一个过来找出去培训的那些人,神奇的是昨天单位微信群上也很安静,没有经常闪动。为什么会如此平静呢?

摸鱼这种事情有别人在跟没别人在对我来说没有区别,当我要摸鱼的时候,谁也阻止不了我。虽然有时摸鱼的时候不得不东躲西藏。可当我要认真的时候,同样也是没人能阻止我,不管那是上班还是下班,是白天还是半夜,只要我想干下去,哪怕那跟加班费没有半点关系,我也不会停下来,因为那是我想要干的事。

四周很安静,没有任何的干扰,也没有什么特殊的任务突然降临,所以我该做些什么呢?在做完平时应该做的那些事以后,我应该做些什么呢?摸鱼什么的摸多了也会觉得无聊,所以还是要找一些正经事干一下。有事可干的时候,你就只管去干,干就完了,但是当你无事可干又得找些事干的时候,的确挺烦恼。我觉得这个烦恼对我来说已经存在了好长一段时间。究其原因是有些时候你根本打不起去干某事。一方面你没什么事干,另一方面是有些事你或许可以干,但是你不想去干。这两个因素凑起来就变成了一个死循环,人就是在这个死循环里。慢慢地耗费着生命。

前天下午,我突然想到要以另外一个数据模板写一个VBA的汇总脚本。汇总脚本之前我已经写过,而且已经用了一个入户周期,2.1万吨的玉米入库绝大多数都是通过那个东西生成的,一直都没有问题,所以根据我的数据模板生成那个东西是完全没有毛病的,但如果我换了一个数据模板呢?我自己的数据模板没有毛病,其中一个很重要的原因是里面一些关键参数的设定我是以我的模板的某些数据量身定做的,但如果我换了一个模板我就得把某些数据转换过来。比如把两列的数据有条件地合并为一列,这是可以预知的,另外一些不可预知的我只能尽可能的把我想到的都做出来。当我遇到这个问题的时候。我感觉明明很简单的东西,为什么就要搞出那么多的花样呢?为什么这个不应该随心所欲的东西,实际上就这般随心所欲呢?大家都是说根据某个国标去做的列表,但实际上用起来的时候五花八门。我自己用的那个转换脚本是完全根据我的那些乱七八糟理出来的,但我不知道别人的乱七八糟到底乱成一个什么模样。这是一个无底洞,我自己的处理方式是嵌套很多层replace,但显然对小白来说,这样的操作非常不友好。所以在新的汇总脚本里,我采取的方式是建立一个索引,把集合五花八门的索引得先建立好了,然后我再以左外的方式匹配某些关键词,把所有的内容给关联上去。因为是开放的,可以很容易进行编辑,而且不需要他们懂得任何公式嵌套技术。这是我能想到的一个很大的坑,但我觉得还有一些更大的坑隐藏在阴暗处,比如别人生成汇总的那个数据模板不是我理解的那一款,他们需要在那个模板上手动编辑才能出结果。这就意味着索引的方式得发生变换了。还有一个就是万一在另外一个参数的地方,他们那个基础数据表还得进行某些修改才是他们汇总表的那个格式,那么那个地方也需要进行加工。综上所述,我觉得其实这些坑可以完全不存在,但问题就是设计软件的人和使用软件的人思路不一致,使用软件的人没有考虑到以后会被要求进行这样的操作,所以一开始默认套用了某些增加参数的方式。最终结果是他们得绕一大个圈、人肉查找好几个表才最终汇总出一个结果。这样就会导致汇总出错的概率提高,同时也会让人没有必要地忙乎一大轮,而且是天天都得这么忙。

如果把这些事情都理清了,根本不是问题,但可以肯定的是,不是所有人都愿意在这个理清上面花时间、把这一整套人肉的操作变成自动化。因为从根本上说大部分的他们只是为了仅仅完成任务,而从来没想过要把那做得更好、做到极致。

2023-08
23

追求更好

By xrspook @ 8:32:56 归类于: 烂日记

实现功能,我觉得只是最基本的要求。接下来我会考虑到底有什么是可以优化的,比如如果我做了很多个判断,我能不能少做一些,把那些判断合并起来或者里面我做了不少循环,循环通常是为了赋值,赋值完以后我有没有立即就把那个数组或者字典之类的释放。我不知道那些东西释放跟不释放效率会不会相差很多,但可以肯定的是,如果我在一个脚本里同一个数组或者字典的名字被重复用多次,而在使用之前我又没有重新定义,在上一个数组或者字典使用完毕之后,把它清除干净会让我安心很多。

一开始要实现某个功能的时候,我都是写完一大堆,然后发现另外一个功能可能就是在那一大堆里面改一点点,然后就可以实现了,我就会把那一大堆复制粘贴,然后改一点点,发现的确是可以的,但是当这个脚本真的要放出来的时候,我就得合并同类项,能不能把这两个东西通过以某个判断把它们合并在一起呢?如果那两段话的差别就只是某个条件判断不一样,我能不能把那个条件判断放在前面,然后把判断结果赋值给一个变量接着后面就可以在同一段话里面引用那个变量了。这样的话从脚本的体积来说可以缩短很多,起码可以减肥一半,甚至更多。

一直以来我都想不通,如果我要从一个工作簿里复制某个工作表到另外一个新的工作簿。那么我是应该把整个工作表复制过去呢,还是说在新的那个工作簿里面新建一个工作表,然后把原来那个的内容复制到那边。在生成这篇blog的时候,其实我依然没有做过这种尝试,到底哪一个的效率会高一点呢?我选择的是直接把工作表复制过去。当我全部复制完毕以后,因为每个工作簿新建的时候都会有一个默认的工作表,我最后的步骤就是把默认的那个工作表删掉。但是让我想不明白的是,如果我不是在VBA里操作,而是直接操作Excel,我在某个已经打开的工作簿的工作表的表名那里点右键之后选择在新的工作簿里面建立这个工作表的副本,那么新的工作簿里是不会有默认空白工作表的。这是不是证明,如果我在新建工作簿里面设定某些参数可以不让那个默认空白的工作表生成呢?因为如果这样的话,我就不需要在后面再做一个删除的操作了。从数据上说,删不删除都无所谓,因为那个是空白的,但是对完美主义者来说,总觉得有那么一个空表实在很碍眼。

当我终于实现了批量生成文件以后,我发现批量生成文件的速度很慢。慢到大概每个表都需要一秒钟,如果要批量生成9个表就得9秒钟甚至更多。在考虑如何缩短时间的时候,我马上想到我把那些批量生成的表全部都放在一个工作簿里,事情就变成了批量生成一个工作簿里面的N个工作表,而不是生成N个工作簿。接着我发现这样的确能提高一点速度,如果要生成9个表的话,时间会从大概9秒钟下降到6秒钟,但是我觉得还是不行。于是我就开始研究我这个生成的过程到底有没有什么地方可以改进。因为之前我的策略是生成9个工作簿,所以我肯定是从原始的文件里先把自带格式的工作表复制到新的工作簿,然后再把新的数据粘贴到新的工作簿,然后保存。同样的思路,用在一个工作簿的N个工作表里,效率很低。所以接下来我做的就是新建一个工作簿,然后把带有格式的工作表复制过去。接着在新的工作簿里面复制里面带有格式的工作表,改名,接着在新的工作表里赋值。这样最大的区别就在于在多次复制工作表的时候,我不再需要跨工作簿了。这么一个不跨文件的操作,直接让批量生成的时间从6秒下降到2秒,效果非常明显。我觉得两秒也几乎基本上是个极限了,因为即便我用最简单的循环,基本上不在工作表里面录入什么数据也需要接近2秒的时间,现在我粘贴了那么多数据,还有就是生成这些数据之前还进行了N步操作,整个过程下来不到三秒,我觉得完全可以接受。

追求更快更好是从来没有尽头的。

2023-08
13

VBA跨表查询优化

By xrspook @ 10:27:49 归类于: 烂日记

第一次加VBA+ADO+SQL里跨表查询到一个表之后,发现运行时间只需要0.12秒。那个时候我就觉得如果我要完成之前已经在PQ、PP和python的那个方案,在VBA里估计只需要很短的时间,有可能是一秒以内实现,但最长时间我感觉不会超过三秒。之所以有这种感觉是因为之前我用VBA的时候,如果我使用的是数组,使用的是数据最后一次性的打印出来,中间不显示,通常运行时间不会超过一秒。如果我不是用数组操作,而是在折腾单元格,比如做一些打印格式的转换,时间可能会长一点。那个时间的长短跟我电脑正在处理的任务多少有关,如果电脑比较空闲,时间会很短,但如果电脑正在运行其他的东西,比如FireFox里打开了N个网页,那么这个运行时间可能会长一点,甚至会超出我的想象。最终,当我把整个之前的那跨表查询方案在VBA里实现的时候,我办公室的那台电脑大概需要1.3秒。这个1.3秒是不确定的,有时可能需要1.4甚至1.5秒,但是也有可能1.2秒就可以。

当我在进行了一些数据的优化,比如当那个字典完全赋值给数组以后,就把字典关掉,又或者是减少一些变量,比如在我用SQL进行查询的时候,因为有些步骤太长,我的脑子又转不过来,所以我一个步骤跨了好多段。多段实际上是一路到底,后面不需要引用步骤中的数据,在写下一段的时候,我就不再定义一个新的变量,而直接沿用上一个变量名。连续三段,都是为了得出最后一个答案,在我优化之前,每一段我都会用一个新的变量名。仅仅是在使用完字典以后就把它关闭掉这个操作就让我的运行时间马上提升了0.2秒。我不知道为什么,效果居然如此明显,字典是个非常高效的东西,但原来之所以这么高效,非常有可能是因为它占用了资源。虽然释放字典这个操作基本上是在整个程序的最后部分,但依然能明显提速。当我慢慢地研究一行又一行的合并变量名以后。整个程序的运行时间有可能在一秒之内。通常是1.1秒,如果我同一个时间刷新多次的话,非常有可能会出现0.9秒。但就使用而言,你怎么可能就为了那个0.9秒,把它刷多次呢。因为刷新多次,实际上也花了好几秒,这是完全没有意义的。写这个VBA就是为了让你打开文件,输入相关参数以后进行查询,一次能查到的那个时间才是意义所在。PQ输入参数,点击刷新,第1次的刷新时间肯定是最长的,在成功的刷了第1次以后,继续刷,时间你会觉得明显缩短。所以的确最后这个VBA文件有可能在我的同一台电脑上刷出0.9秒,但在我的能力范围之内,我顶多能改到在那台电脑上首次刷新小于1.1秒。

运行效率这个东西在不同的电脑上效果是不一样的,在我做python方案的时候,我就已经明显感觉到了。python方案的运行时间大概6秒。在我家的电脑上大概需要7-8秒,在我那个不插电源的笔记本电脑上需要10秒。这个让我挺惊讶,因为笔记本电脑购买的时间比我家台式机组装的时间晚起码5年以上。之前我就试过,在笔记本电脑上插电和不插电压片,结果发现插电的时候性能会明显飙上去,CPU的使用率会飙起来。据我观察,在python方案的时候,CPU的使用程度要比内存大,运行PQ的时候刚好反过来。所以电脑的CPU越好,python方案的运行时间会越短。宿舍那台神舟miniPC5的运行时间大概跟我家里的电脑差不多。VBA的方案我没有在宿舍的电脑测试过,也没在笔记本电脑上测试过,但家里的那台电脑,我感觉运行时间有点不稳定,有可能会超过两秒,但有可能会是1.3秒。为什么会这么不稳定呢?VBA的那个脚本,我同事的运行时间通常能在一秒以内,曾经试过0.8秒,她办公室的电脑购买时间大概比我的晚两年。就我俩办公室的电脑来说,差距大概是0.1秒。对运行时间得大概6秒左右的python来说,她只需要5秒多一点。

运行一个跨表查询,VBA+ADO+SQL这套方案就只需要一秒,其实已经很快了。如果我把那个VBA根据输出表格的类型拆分为两个,我觉得运行时间能进一步的提升。毕竟其实输出的4个表格通常不会一起用到,但是如果现在需要一秒,单独一个也需要0.6秒,我为什么要做这个拆分呢?

接下来我会继续研究一下还能怎么改进,研究完以后再把这个发给专业同事,询问一下改进意见。

2023-04
3

多余?

By xrspook @ 15:44:05 归类于: 烂日记

还记得使用了WordPress一段时间以后,我感觉即便我们已经挑了在国外国内访问响应速度最佳的服务器,但是网站打开还是有一点慢,所以我就拼了命去做各种优化.有些优化是在我的层面可以做到的,有些需要我的网友在服务器设置层面进行优化。其实我们已经把响应时间控制得很好了,我依然想做得更好,但是有些东西无论如何我们都无法做到,因为那已经不是用户层面的事了,那是服务器底层的某些设置。可以这么说,我们已经把我们能做到的东西尽力完成了,虽然好像还是有遗憾。那是我第一次承认有些事情我知道是可以做的,但是我却永远做不到,完全不是因为我能力的问题,而因为某些客观的原因就是这么个事实。这概这大概就是传说中的那种“接受生命中的某些不可能”。我不得不接受除非我们换一家服务器否则无法做到的事实。因为我们是合租的,不可能因为我一个网站不能优化到最佳直接换一家,而且我的只是一个个人的blog,为什么一定要把优化做到极致呢?即便我们能实现某个功能,但是那个功能真的会让用户的感受更好吗?或者即便我们实现的那个功能,实际上也没有提升多少,所以我们可能只是瞎忙乎了。现在我尽了我一切所能把可以做的东西全部都优化过了。在我能测试的环境下,效果还是挺明显的,至于在国内的其他地方,在用除了中国电信以外的东西去访问的时候是不是这样我就不知道了,我也没办法知道。

学生时代可能根本就不存在这种事,尤其是当你在解决一个理科问题的时候。老师提出的这个问题,默认有标准答案,无论你是用什么方式去实现,但在现实生活中,可能这个标准答案根本是不存在的,因为非常有可能这是一个伪命题。当你探寻结果的时候,最终发现可能根本没有结果,又或者说那个结果根本不是你想象中的那个样子。但是在学校的教育之中,老师却从来没有告诉过你,遇到这样的情况该怎么做。在学校的教育里,不通常不会留给你机会去否定老师,老师也默认你不应该否定他,无论在什么场合。当你否定他的时候,他会觉得很没面子,接下来出现什么报复事件就很正常了,哪怕恶果不是马上就出现,有可能那种报复是慢性的。为什么老师给出的答案就一定是对的呢?为什么老师用的那种方法就一定没有问题呢?为什么一直以来就没有一个学生出去否定老师说这种方法不是最好的,应该怎么做?如果有一个学生真这么干的话,无论是老师还是其他同学,都会马上蹦出这么一个念头——你谁呀?你怎么知道你做的那个是最好的?在学生年代,为什么我们就没有那种欲望、要想出一个比老师标准做法还要好的方法呢?绝大多数情况下,我们默认老师给出的答案就是终极做法、是最佳的做法。一直以来我们的教育都缺乏了那种对最好答案的质疑以及对更好答案的渴望。因为绝大多数情况之下,这种质疑和渴望都是多余的。

但就是因为有些人发现了普通人眼中的多余,这个世界才变得更好了。

2020-10
20

我要优化提速

By xrspook @ 8:36:19 归类于: 烂日记

当我终于把功能做出来以后,我却嫌弃出结果太慢了,居然要好几分钟。明明最终我想要的是一个表的合并,为了更快,我不得不拆分为两个查询。第2个查询以第1个查询的结果为基础。其实这么操作,无非我是想利用第1个查询已经得到的缓存结果。那个结果已经被我用表格输出。之前我试过从零开始弄第2个查询,结果发现实在太慢了。如果没有那么多的分组,速度还会那么慢吗?如果只是一个求和,根本无需分组,但问题是,每个批次的东西必须分开计算,然后才可以出现分段的结果。说白了,让我纠结的是一个累计求和。

累计求和这种东西的思路在PQ里通常都意味着新增一列,参数设定匹配某行的某些东西,符合条件就把某列的数据求和。所以实际上这是一个筛选的过程。如果数据很多,筛选肯定会很慢,但除了这样,还能有什么方法吗?据说可以用索引的方法。据说索引的方法比筛选的方法快非常多。如果用python的思路去考虑,我觉得筛选是一个列表的操作,而另外一个是字典的操作。如果不用二分法。历遍列表是非常慢的,但如果要立片字典,历遍是轻而易举的事,而且字典的效率比二分法还要高。所以我应该如何建立索引呢?如果筛选的是多条件,索引大法还能继续管用吗?我觉得现在我遇到的问题那些经常接触数据库的人估计已经纠结过了。这不仅仅是Power Query的问题,这是如何运用数据进行弯曲折叠的问题。只要是数据库,无论是SQL还是其他形式,都会有这种烦恼。

昨天我终于经历了一个Excel要跑好几分钟甚至十几分钟才能出结果的东西,我感觉那没多少数据。我曾经试过把那些东西输出,结果发现输出速度非常慢,每秒钟只处理了不到100个。那些数据粗略计算了一下,可能有超过2万条。为什么加载2万条数据会这么慢呢?这是一个令我纠结的结果,如果把最后的分组都做了,输出的数据只有365条,但如果不做最后的分组,有超过2万条。不做分组的话,那个结果可以在软件里直接展示出来,顶多只需要几秒的运算时间,但是不做分组,把数据输出却有超过2万条,即便我不输出表格只输出数据透视表,依然在输出的时候速度非常慢。为什么对2万条数据进行分组会这么慢呢?除了分组,还有其他快速的方式可以对某条件进行求和吗?整个操作之所以这么慢,除了因为分组,还有排序,还有一些,null转化为0,或者把0转化为null的操作,最后,还有一条我自己都觉得应该会很作死的向下填充。那个结果我花了好几分钟才计算出来,如果让高手去解答,估计运行时间会会是毫秒级的,顶多不会超过三秒钟。

一方面,我很想知道如何提升运行速度,直接拿去问人显然是最显而易见的办法,但在这之前,我想自己先思考一下,毕竟走到这一步已经很不容易,我不想在最后一步认输。这让我想起了高中数学老师的某句经典语录,学习数学几个境界里的最后一句——全而不好(前几句是“不懂不会,会而不对,对而不全”)。

© 2004 - 2024 我的天 | Theme by xrspook | Power by WordPress