2023-08
13

VBA跨表查询优化

By xrspook @ 10:27:49 归类于: 烂日记

第一次加VBA+ADO+SQL里跨表查询到一个表之后,发现运行时间只需要0.12秒。那个时候我就觉得如果我要完成之前已经在PQ、PP和python的那个方案,在VBA里估计只需要很短的时间,有可能是一秒以内实现,但最长时间我感觉不会超过三秒。之所以有这种感觉是因为之前我用VBA的时候,如果我使用的是数组,使用的是数据最后一次性的打印出来,中间不显示,通常运行时间不会超过一秒。如果我不是用数组操作,而是在折腾单元格,比如做一些打印格式的转换,时间可能会长一点。那个时间的长短跟我电脑正在处理的任务多少有关,如果电脑比较空闲,时间会很短,但如果电脑正在运行其他的东西,比如FireFox里打开了N个网页,那么这个运行时间可能会长一点,甚至会超出我的想象。最终,当我把整个之前的那跨表查询方案在VBA里实现的时候,我办公室的那台电脑大概需要1.3秒。这个1.3秒是不确定的,有时可能需要1.4甚至1.5秒,但是也有可能1.2秒就可以。

当我在进行了一些数据的优化,比如当那个字典完全赋值给数组以后,就把字典关掉,又或者是减少一些变量,比如在我用SQL进行查询的时候,因为有些步骤太长,我的脑子又转不过来,所以我一个步骤跨了好多段。多段实际上是一路到底,后面不需要引用步骤中的数据,在写下一段的时候,我就不再定义一个新的变量,而直接沿用上一个变量名。连续三段,都是为了得出最后一个答案,在我优化之前,每一段我都会用一个新的变量名。仅仅是在使用完字典以后就把它关闭掉这个操作就让我的运行时间马上提升了0.2秒。我不知道为什么,效果居然如此明显,字典是个非常高效的东西,但原来之所以这么高效,非常有可能是因为它占用了资源。虽然释放字典这个操作基本上是在整个程序的最后部分,但依然能明显提速。当我慢慢地研究一行又一行的合并变量名以后。整个程序的运行时间有可能在一秒之内。通常是1.1秒,如果我同一个时间刷新多次的话,非常有可能会出现0.9秒。但就使用而言,你怎么可能就为了那个0.9秒,把它刷多次呢。因为刷新多次,实际上也花了好几秒,这是完全没有意义的。写这个VBA就是为了让你打开文件,输入相关参数以后进行查询,一次能查到的那个时间才是意义所在。PQ输入参数,点击刷新,第1次的刷新时间肯定是最长的,在成功的刷了第1次以后,继续刷,时间你会觉得明显缩短。所以的确最后这个VBA文件有可能在我的同一台电脑上刷出0.9秒,但在我的能力范围之内,我顶多能改到在那台电脑上首次刷新小于1.1秒。

运行效率这个东西在不同的电脑上效果是不一样的,在我做python方案的时候,我就已经明显感觉到了。python方案的运行时间大概6秒。在我家的电脑上大概需要7-8秒,在我那个不插电源的笔记本电脑上需要10秒。这个让我挺惊讶,因为笔记本电脑购买的时间比我家台式机组装的时间晚起码5年以上。之前我就试过,在笔记本电脑上插电和不插电压片,结果发现插电的时候性能会明显飙上去,CPU的使用率会飙起来。据我观察,在python方案的时候,CPU的使用程度要比内存大,运行PQ的时候刚好反过来。所以电脑的CPU越好,python方案的运行时间会越短。宿舍那台神舟miniPC5的运行时间大概跟我家里的电脑差不多。VBA的方案我没有在宿舍的电脑测试过,也没在笔记本电脑上测试过,但家里的那台电脑,我感觉运行时间有点不稳定,有可能会超过两秒,但有可能会是1.3秒。为什么会这么不稳定呢?VBA的那个脚本,我同事的运行时间通常能在一秒以内,曾经试过0.8秒,她办公室的电脑购买时间大概比我的晚两年。就我俩办公室的电脑来说,差距大概是0.1秒。对运行时间得大概6秒左右的python来说,她只需要5秒多一点。

运行一个跨表查询,VBA+ADO+SQL这套方案就只需要一秒,其实已经很快了。如果我把那个VBA根据输出表格的类型拆分为两个,我觉得运行时间能进一步的提升。毕竟其实输出的4个表格通常不会一起用到,但是如果现在需要一秒,单独一个也需要0.6秒,我为什么要做这个拆分呢?

接下来我会继续研究一下还能怎么改进,研究完以后再把这个发给专业同事,询问一下改进意见。

2023-08
4

又绕到了VBA

By xrspook @ 8:37:44 归类于: 烂日记

习惯了用VSCode写python以后回到VBA,感觉怎么整怎么都不对。首先相对于python来说,VBA的编写规则好像有点八股,因为那些专有名字总是老长。有一些让我想不明白的是某些东西为什么就不能先存储在某个地方,往后在别的地方调用?比如复制,理论上是很简单的事情,就只是从这里到那里而已。在python里,你喜欢怎么整就怎么整,但实际上你要用VBA控制Excel,做一个复制,远远没有你想象中的那么简单。对python来说,数据是没有格式的,没办法决定这一串数字到底是什么颜色、什么字体、大小、背景是什么,但是Excel的单元格有这些东西,你要复制一堆单元格到别的地方他默认就会把所有格式都带上,但实际上你不过想贴一个纯粹的文本或者数字而已。因为这样你还得在复制粘贴的时候用上其它东西去强调说明,而一旦有这个强调的操作,这就是一个特殊的复制粘贴。复制英文是copy,如果你直接把一堆单元格copy到另外一堆单元格,就会把所有格式都一起带过去,如果你不想干这种事你只想要数据本身,你就得把你原来的那部分单元格select,然后对select的部分做copy,最后在其它需要粘贴的地方再用特殊的粘贴方式。所有人都觉得最直观的方式点copy,当你要实现最纯粹粘贴的时候却无法做到。

copy本身很简单,是我们理解的很简单,但是对Excel的设计者、对VBA所控制的东西来说,copy实际上一点都不简单。昨天有段时间我曾经想过,能不能在某个单据格式改造的时候直接在VBA里做分组,然后得出汇总。但是我又非常明白,VBA本身是没有类似pandas的那种dataframe的东西。PQ和PP都有类似dataframe的东西,所以你不需要很努力一个一个数据去处理,不需要考虑其中的数组,你只需要操控好行和列的盘曲折叠就可以了。但是在VBA里,效率最高的一定是数组,数组没办法给你判别行还是列。在增加数据的情况下,你还不能在行业里增加,你必须把行列转置,然后在列那里增加,最后再把它转回行,这个东西很绕。虽然行列转制这种东西在pandas跟PQ里都有,但是在增加行或者增加列的时候,远远没有VBA的数组那么绕,于是你就可以花更多的时间去考虑我到底要怎么折腾那些东西,而不是在数那些东西到底有多少行多少列,我要增加什么,该如何插入、得插入多少。

C语言考试的时候我也是这么被C语言的指针搞得迷迷糊糊。如果我可以把C语言的指针玩得很溜,可能我对VBA的数组操作就不会有太多槽点了。可以肯定的是,当年的我跟现在的我对数组操作都比较畏惧……

因为不想用VBA去加工数据,所以我临时干的是用PQ做汇总数据,然后用VBA把得出来的数据精确地按照需要的格式生成文件。虽然实际上这样不过是点一下变成多点几下而已,但我觉得如果我能在VBA层面就完成了汇总,我就不需要 PQ运行的那几秒钟。我抠门的不是鼠标多点几下,而是刷新PQ那几秒钟,所以我还会在VBA上努力的。

2023-07
30

半半的坎

By xrspook @ 11:14:37 归类于: 烂日记

当我把python的脚本修改完毕,觉得没什么问题了之后我把那发给我的同事,理论上她的电脑上已经安装过python,但实际上当她双击打开py的时候,会默认弹出VSCode,并不能运行python本身。这是我之前从来没有遇到过的,因为我安装的都是python的官方程序,启动器在安装的时候只要你默认,基本上都会装上,但问题是我同事安装的是anaconda。现在的python教程通常都会推荐用anaconda,那里自带的编辑器是jupyter notebook。jupyter notebook到底怎么用实际上我没搞懂的,虽然实际上py文件也能运行,但jupyterr notebook默认的保存文件不是py,所以用普通的python到底能不能打开jupyter notebook保存的文件我还真没试过。从我开始学习python,我用的就是VSCode。当我很长时间不用VSCode以后,当我再次打开,我会发现VSCode里面默认帮我装上了jupyter notebook的插件。

双击点py文件就用VSCode打开,然后还得找终端,但实际上因为可能anaconda安装python的时候并没有默认安装启动器,所以在那里双击没有运行cmd,双击打开py文件的时候,依然是VSCode本身,变成一个运行不了的死循环。 VSCode本身没有问题,问题是py文件的关联没做好,这才是问题所在。

要做到的不过是双击就能直接打开py文件运行,所以把py文件默认用cmd打开运行就好了。在cmd里输入python会显示拜访的版本,这没有问题,这意味着电脑已经安装了python,但问题是当输入where python的时候显示的是一个C盘很长很长的地址。按照那个地址打开文件夹,的确是有python的。再把这串地址上面的exe文件输入到py文件的打开方式的时候,py文件就终于可以双击运行了。双击的确可以弹窗运行,但问题是如果py文件运行的时候出现状况,比如说一闪就没了,就意味着可能文件没有正常运行,而是遇到了某个东西中断了。第一次成功设置好双击的时候,的确就出现了这种情况,直觉告诉我肯定是出状况了。在py文件所在的那个文件夹里输入cmd,然后再运行py文件,结果发现提示没有安装pandas插件。我的同事觉得很不可思议,因为anaconda本身理论上这些插件都是齐全的。我觉得之所以会这样是因为anaconda把插件安装在了自己的那个地方,而现在是单独运行python本身,而python本身的文件夹里面没有这个插件,所以这就导致了插件缺失。需要安装插件,要怎么个装法,对我这种人来说,我第一个想到的就得先设定插件下载来源为清华的镜像。如果你使用python官方路径下载,估计要很长时间,即便花了很长时间也可能会下载不全,因为非常有可能因为时间太长,网速太差丢包。虽然安装一个pandas的插件,但实际上要支持电脑运行,也要安装其它的插件,任何一个不齐全都可能会导致最终无法运行。在知道她得重新安装pandas的时候,我就已经把清华镜像的设置发给了她,但是她还要是没有意识到必须得先设置国内的镜像路径,然后再去下载。虽然单位的网速进行了限制,但是下载清华大学的镜像还是很快的,相比于python官方的下载来说清华基本上可以说是一些典插件安装的必然选择。如果你安装的是一些开源性自行设计小众插件,清华的镜像可能没有,那时候你就只能通过开发者提供的路径去下载。

其实我并不需要她完全按照我的思路来,我告诉她要什么,她只需要实现就行了,现在挺反映出来的状态是她大概知道我要做什么,但是她没有反应到用她的方法应该怎么做,有可能是她没想过要去想。一半他的一半的最终结果就是,我不知道她到底卡在了什么地方,因为以我的方式是完全不会卡的,她估计也会觉得我带她走了不少弯路。

不是人人都天生喜欢自发创新,该怎么找到这种人呢?

2023-07
29

最后的小计也出来了

By xrspook @ 10:03:24 归类于: 烂日记

又花了大半个下午的时间,我把python跨表查询版最后的那个小计功能也开发出来了。其实前一天晚上我已经找到了类似的案例,只要按研究透的那个东西,接着往我自己那里套就可以了。我大概明白里面用到的公式到底是干什么用的,但是把它们套起来了以后,我发现用在我的那里无论如何都不对,所以我就在案例里不断套脚手架,不断地做注视去掉东西。最终发现让我失败的原因是我的那个dataframe是没有索引的,这就让我后面折腾了好长一段时间。

要在dataframe里加小计,首先需要对进行小计的项目进行分组处理。前一天我已经了解过,这样分组出来结果就只是那些聚合的数据。这些聚合的数据如果你不需要带入特殊的分组词,那么你跟原数据合并,然后根据你的分组项目名排序,小计就会合体到原来的dataframe里。如果你要加入小计这样的词语,你就得虚拟新增一列以非分组项目为名称的列名,内容就是小计之类的词。这样的分组结果我不知道为什么那个案例最后要设定以分组项目为索引,因为我在折腾那个案例的时候发现做不做这一步出来的结果没区别。

最最关键,让我折腾半天的根本原因是我要加小计的那个dataframe在从Excel读取数据的时候就已经设定了不添加索引。我发现当我去掉了案例的默认索引以后,和我的脚本出现了同样的问题。所以解决方案是先给我的datafame添加一个默认索引,然后再进行上面说到的分组操作,接着把有默认索引的dataframe跟分组结果结合在一起。同时对分组项目排序。分组后的结果有没有默认索引都无所谓,因为合并时都得重置索引。我没有试过如果这个dataframe也自带了默认索引,最后能不能成功合并。纯粹为了探索,我应该了解这个,但因为我运气好,在研究之前就已经得到了我想要的结果,所以我就没有继续下去,接下来我会继续拿那个案例把玩一下。

为什么会在Excel的单元格数据传入pandas的时候就把默认索引禁止掉呢?其实不禁止也完全没有问题。因为在最后把加工过的东西输出的时候,我可以控制不输出。之所以会有这样的习惯,写出这样的控制,是因为我看的第一本用python批处理Excel的书里面是这么写的。在看那本书的时候,我觉得那本书写得一般般,因为他给出了一个例子,然后大概告诉你要实现什么功能,接着就是展示脚本。我觉得起码你得在介绍那个例子的时候,除了源数据本身,也得展示一下你最终的效果是什么。他们还偶尔说不清具体需求是什么,唯有去研究他们的代码,你才知道原来具体他们要干那个。

在一个明细数据表里加入小计这东西是完全可以实现的,但是从数据处理的角度考虑,为什么我要把明细跟汇总合并在一起呢?如果用我的Excel思维去考虑这个问题,我觉得明细表就是,明细表汇总表用透视表表达出来就好了。因为数据透视表是很灵活的,可以用任意的汇总维度去观察同一个源数据。python可以轻松处理Excel的数据,但是到了Excel以后,展示的方式的控制好像python的插件就有点难以直接控制,而要控制这个最好的方法就是通过api,用VBA控制,因为vba是原生office的自带工具。

我发现python批处理Excel脚本的运行速度跟电脑的CPU有很大关系,跟内存大小关系不大。用我办公室的电脑运行,但需不到6秒,用我宿舍的电脑运行大概需要7秒,用我家里的电脑运行大概需要7.5秒。这是在正常的情况下,如果我的电脑正在执行多任务,这些时间就会说不准了。之所以我说这跟电脑的CPU性能有关,因为运行脚本的时候我盯着任务管理器。发现有段时间Excel的CPU会飙升最大40%,虽然维持的时间很短。不同性能的电脑同样CPU,封顶都会飙到40,这就意味着CPU的核数越多,单核的性能越好,那么这个脚本的运行速度就会越快。6系的i5运行6秒,2系的i3运行8秒,是有差距,但经历过Power Pivot得12秒起,python很爽了。

我觉得这个python脚本还有继续改进的空间,继续努力。

2023-07
28

跨表查询python版搞定

By xrspook @ 22:30:18 归类于: 烂日记

花了一整天的时间去做python版本的发跨表查询,最终还真的被我做到了,唯一有点小瑕疵的就是出入进度里我还没有实现批次小计。我基本已经想好需要一个什么样的数据处理,但是怎么把那些东西结合起来我还没有一个成熟的思路,估计会有一些类似的案例,我可以参考一下。

之所以这个脚本居然用了一整天,是因为最后我算了一下字数,居然有4000多字。因为我用的是VSCode,所以实际上敲代码已经很高效了,因为几乎所有符号都会配对出现,一旦有手误的地方基本上都会提醒,但是有些东西是VSCode不会提醒我的,比如我要用到pandas各种格式的数据,有些事不能直接用print打印出来的,必须要用个循环才能把那些东西展示出来。如果我用python处理Excel,我会用xlwings进去,然后用pandas。之所以用xlwings,因为这个东西支持Excel的版本比较多,老一点的插件有的只支持xlsx有些不支持xlsb,有些仅仅支持xls,而我选择的这个xlwings基本上我用的Excel格式都支持了。现在我主要用xlsx和xlsb。因为做这个python查询之前,我已经在PQ和PP上做了两遍,所以我完全知道自己要做些什么,但具体那些东西该如何实现,应该用什么样的表达式去实现,是我花时间的地方。

昨天之前我对pandas里面的dataframe并不太熟悉。我知道那个结构很类似于Excel的表格,但实际上用起来又跟表格不太一样。我觉得那个东西最好的地方就是不像PQ那样,经常被高手套叠起来,于是你想半天都搞不懂那到底是什么。作为一个不是python新手的人,我还是喜欢用短语句完成,然后再连接起来。自学python让我觉得最成功的地方在于我喜欢用for循环,而且还非常习惯使用套叠循环。如果在我大二学C语言的时候,我也能把循环玩得这么溜。估计我就不会为冒泡法这种东西发愁了。

虽然花了一整天时间,才终于把这个东西整出来,但我个人感觉还是比较愉快的,尤其是敲代码的过程,因为相对于在Microsoft 365的PQ或PP的编辑器里面敲代码,VSCode里敲代码实在太爽了。PP会经常提醒我公式错误,因为PP那个你看不到的循环实在会把你整得很惨。PQ里我不过是删了个文字,不知道为什么它会自动给我加半边括号,所以搞了半天,我都搞不懂自己到底哪里错了,最后发现不知道为什么,多了个括号,又或者在调整某些语句的时候多了或少了个逗号。英文和中文逗号在编程的世界里是有区别的,在VSCode里可以看得很清楚,但在PQ的高级编辑器里。因为字体太小,你还没办法快捷变大,非常折磨我这种眼睛不太好的老人家。

高中的时候我的数学老师经常一节课就只讲一道题,他会用很多方法把那道题解出来。现在,我也喜欢上了这种别人可能非常难理解的行为。

© 2004 - 2024 我的天 | Theme by xrspook | Power by WordPress