pandas « 我的天

2023-07

半半的坎

By xrspook @ 11:14:37 归类于: 烂日记

当我把python的脚本修改完毕，觉得没什么问题了之后我把那发给我的同事，理论上她的电脑上已经安装过python，但实际上当她双击打开py的时候，会默认弹出VSCode，并不能运行python本身。这是我之前从来没有遇到过的，因为我安装的都是python的官方程序，启动器在安装的时候只要你默认，基本上都会装上，但问题是我同事安装的是anaconda。现在的python教程通常都会推荐用anaconda，那里自带的编辑器是jupyter notebook。jupyter notebook到底怎么用实际上我没搞懂的，虽然实际上py文件也能运行，但jupyterr notebook默认的保存文件不是py，所以用普通的python到底能不能打开jupyter notebook保存的文件我还真没试过。从我开始学习python，我用的就是VSCode。当我很长时间不用VSCode以后，当我再次打开，我会发现VSCode里面默认帮我装上了jupyter notebook的插件。

双击点py文件就用VSCode打开，然后还得找终端，但实际上因为可能anaconda安装python的时候并没有默认安装启动器，所以在那里双击没有运行cmd，双击打开py文件的时候，依然是VSCode本身，变成一个运行不了的死循环。 VSCode本身没有问题，问题是py文件的关联没做好，这才是问题所在。

要做到的不过是双击就能直接打开py文件运行，所以把py文件默认用cmd打开运行就好了。在cmd里输入python会显示拜访的版本，这没有问题，这意味着电脑已经安装了python，但问题是当输入where python的时候显示的是一个C盘很长很长的地址。按照那个地址打开文件夹，的确是有python的。再把这串地址上面的exe文件输入到py文件的打开方式的时候，py文件就终于可以双击运行了。双击的确可以弹窗运行，但问题是如果py文件运行的时候出现状况，比如说一闪就没了，就意味着可能文件没有正常运行，而是遇到了某个东西中断了。第一次成功设置好双击的时候，的确就出现了这种情况，直觉告诉我肯定是出状况了。在py文件所在的那个文件夹里输入cmd，然后再运行py文件，结果发现提示没有安装pandas插件。我的同事觉得很不可思议，因为anaconda本身理论上这些插件都是齐全的。我觉得之所以会这样是因为anaconda把插件安装在了自己的那个地方，而现在是单独运行python本身，而python本身的文件夹里面没有这个插件，所以这就导致了插件缺失。需要安装插件，要怎么个装法，对我这种人来说，我第一个想到的就得先设定插件下载来源为清华的镜像。如果你使用python官方路径下载，估计要很长时间，即便花了很长时间也可能会下载不全，因为非常有可能因为时间太长，网速太差丢包。虽然安装一个pandas的插件，但实际上要支持电脑运行，也要安装其它的插件，任何一个不齐全都可能会导致最终无法运行。在知道她得重新安装pandas的时候，我就已经把清华镜像的设置发给了她，但是她还要是没有意识到必须得先设置国内的镜像路径，然后再去下载。虽然单位的网速进行了限制，但是下载清华大学的镜像还是很快的，相比于python官方的下载来说清华基本上可以说是一些典插件安装的必然选择。如果你安装的是一些开源性自行设计小众插件，清华的镜像可能没有，那时候你就只能通过开发者提供的路径去下载。

其实我并不需要她完全按照我的思路来，我告诉她要什么，她只需要实现就行了，现在挺反映出来的状态是她大概知道我要做什么，但是她没有反应到用她的方法应该怎么做，有可能是她没想过要去想。一半他的一半的最终结果就是，我不知道她到底卡在了什么地方，因为以我的方式是完全不会卡的，她估计也会觉得我带她走了不少弯路。

不是人人都天生喜欢自发创新，该怎么找到这种人呢？

标签：anaconda, CMD, pandas, python, VSCode, 双击, 启动器, 扮IT, 插件, 清华镜像, 烂日记

6 条评论

2023-07

最后的小计也出来了

By xrspook @ 10:03:24 归类于: 烂日记

又花了大半个下午的时间，我把python跨表查询版最后的那个小计功能也开发出来了。其实前一天晚上我已经找到了类似的案例，只要按研究透的那个东西，接着往我自己那里套就可以了。我大概明白里面用到的公式到底是干什么用的，但是把它们套起来了以后，我发现用在我的那里无论如何都不对，所以我就在案例里不断套脚手架，不断地做注视去掉东西。最终发现让我失败的原因是我的那个dataframe是没有索引的，这就让我后面折腾了好长一段时间。

要在dataframe里加小计，首先需要对进行小计的项目进行分组处理。前一天我已经了解过，这样分组出来结果就只是那些聚合的数据。这些聚合的数据如果你不需要带入特殊的分组词，那么你跟原数据合并，然后根据你的分组项目名排序，小计就会合体到原来的dataframe里。如果你要加入小计这样的词语，你就得虚拟新增一列以非分组项目为名称的列名，内容就是小计之类的词。这样的分组结果我不知道为什么那个案例最后要设定以分组项目为索引，因为我在折腾那个案例的时候发现做不做这一步出来的结果没区别。

最最关键，让我折腾半天的根本原因是我要加小计的那个dataframe在从Excel读取数据的时候就已经设定了不添加索引。我发现当我去掉了案例的默认索引以后，和我的脚本出现了同样的问题。所以解决方案是先给我的datafame添加一个默认索引，然后再进行上面说到的分组操作，接着把有默认索引的dataframe跟分组结果结合在一起。同时对分组项目排序。分组后的结果有没有默认索引都无所谓，因为合并时都得重置索引。我没有试过如果这个dataframe也自带了默认索引，最后能不能成功合并。纯粹为了探索，我应该了解这个，但因为我运气好，在研究之前就已经得到了我想要的结果，所以我就没有继续下去，接下来我会继续拿那个案例把玩一下。

为什么会在Excel的单元格数据传入pandas的时候就把默认索引禁止掉呢？其实不禁止也完全没有问题。因为在最后把加工过的东西输出的时候，我可以控制不输出。之所以会有这样的习惯，写出这样的控制，是因为我看的第一本用python批处理Excel的书里面是这么写的。在看那本书的时候，我觉得那本书写得一般般，因为他给出了一个例子，然后大概告诉你要实现什么功能，接着就是展示脚本。我觉得起码你得在介绍那个例子的时候，除了源数据本身，也得展示一下你最终的效果是什么。他们还偶尔说不清具体需求是什么，唯有去研究他们的代码，你才知道原来具体他们要干那个。

在一个明细数据表里加入小计这东西是完全可以实现的，但是从数据处理的角度考虑，为什么我要把明细跟汇总合并在一起呢？如果用我的Excel思维去考虑这个问题，我觉得明细表就是，明细表汇总表用透视表表达出来就好了。因为数据透视表是很灵活的，可以用任意的汇总维度去观察同一个源数据。python可以轻松处理Excel的数据，但是到了Excel以后，展示的方式的控制好像python的插件就有点难以直接控制，而要控制这个最好的方法就是通过api，用VBA控制，因为vba是原生office的自带工具。

我发现python批处理Excel脚本的运行速度跟电脑的CPU有很大关系，跟内存大小关系不大。用我办公室的电脑运行，但需不到6秒，用我宿舍的电脑运行大概需要7秒，用我家里的电脑运行大概需要7.5秒。这是在正常的情况下，如果我的电脑正在执行多任务，这些时间就会说不准了。之所以我说这跟电脑的CPU性能有关，因为运行脚本的时候我盯着任务管理器。发现有段时间Excel的CPU会飙升最大40%，虽然维持的时间很短。不同性能的电脑同样CPU，封顶都会飙到40，这就意味着CPU的核数越多，单核的性能越好，那么这个脚本的运行速度就会越快。6系的i5运行6秒，2系的i3运行8秒，是有差距，但经历过Power Pivot得12秒起，python很爽了。

我觉得这个python脚本还有继续改进的空间，继续努力。

标签：dataframe, pandas, python, 分组, 合并, 小计, 汇总, 烂日记, 索引

还没有评论

2023-07

跨表查询python版搞定

By xrspook @ 22:30:18 归类于: 烂日记

花了一整天的时间去做python版本的发跨表查询，最终还真的被我做到了，唯一有点小瑕疵的就是出入进度里我还没有实现批次小计。我基本已经想好需要一个什么样的数据处理，但是怎么把那些东西结合起来我还没有一个成熟的思路，估计会有一些类似的案例，我可以参考一下。

之所以这个脚本居然用了一整天，是因为最后我算了一下字数，居然有4000多字。因为我用的是VSCode，所以实际上敲代码已经很高效了，因为几乎所有符号都会配对出现，一旦有手误的地方基本上都会提醒，但是有些东西是VSCode不会提醒我的，比如我要用到pandas各种格式的数据，有些事不能直接用print打印出来的，必须要用个循环才能把那些东西展示出来。如果我用python处理Excel，我会用xlwings进去，然后用pandas。之所以用xlwings，因为这个东西支持Excel的版本比较多，老一点的插件有的只支持xlsx有些不支持xlsb，有些仅仅支持xls，而我选择的这个xlwings基本上我用的Excel格式都支持了。现在我主要用xlsx和xlsb。因为做这个python查询之前，我已经在PQ和PP上做了两遍，所以我完全知道自己要做些什么，但具体那些东西该如何实现，应该用什么样的表达式去实现，是我花时间的地方。

昨天之前我对pandas里面的dataframe并不太熟悉。我知道那个结构很类似于Excel的表格，但实际上用起来又跟表格不太一样。我觉得那个东西最好的地方就是不像PQ那样，经常被高手套叠起来，于是你想半天都搞不懂那到底是什么。作为一个不是python新手的人，我还是喜欢用短语句完成，然后再连接起来。自学python让我觉得最成功的地方在于我喜欢用for循环，而且还非常习惯使用套叠循环。如果在我大二学C语言的时候，我也能把循环玩得这么溜。估计我就不会为冒泡法这种东西发愁了。

虽然花了一整天时间，才终于把这个东西整出来，但我个人感觉还是比较愉快的，尤其是敲代码的过程，因为相对于在Microsoft 365的PQ或PP的编辑器里面敲代码，VSCode里敲代码实在太爽了。PP会经常提醒我公式错误，因为PP那个你看不到的循环实在会把你整得很惨。PQ里我不过是删了个文字，不知道为什么它会自动给我加半边括号，所以搞了半天，我都搞不懂自己到底哪里错了，最后发现不知道为什么，多了个括号，又或者在调整某些语句的时候多了或少了个逗号。英文和中文逗号在编程的世界里是有区别的，在VSCode里可以看得很清楚，但在PQ的高级编辑器里。因为字体太小，你还没办法快捷变大，非常折磨我这种眼睛不太好的老人家。

高中的时候我的数学老师经常一节课就只讲一道题，他会用很多方法把那道题解出来。现在，我也喜欢上了这种别人可能非常难理解的行为。

标签：Excel, pandas, Power Pivot, Power Query, python, xlsb, xlsx, 扮IT, 烂日记

还没有评论

我的天

半半的坎

最后的小计也出来了

跨表查询python版搞定

戳这只鬼

随机日志

我的天

半半的坎

最后的小计也出来了

跨表查询python版搞定

戳这只鬼

标签云了

随机日志