2023-09
6

为什么当年没有这个课程?

By xrspook @ 8:15:11 归类于: 烂日记

如果说大学课程里面我觉得自己还有什么没有学到位,应该回炉努力学习一下的,我觉得应该是数据分析。那个东西是科学研究的基础,不仅仅是科学研究,可以说那是所有科学的基础。什么类型的东西应该套用什么样的模式去得出结论,那些套用的模式又是怎么个操作法。这东西如果光讲应用不讲原理挺简单,也就是把数据丢给某个软件,然后设定某些参数,接着就是等待结果。自动生成的结果一大串,但你需要注意的大概就只有那么几个点,然后就可以判定了,在写论文的时候把一整片结果粘贴上去,那就是正儿八经的结论。但是如果你要深入研究原理,比如这么个操作是根据什么定理的,那个定理到底是怎么个推导,公式很复杂,里面系数看得你眼花缭乱。即便我好不容易懂得如何默写出来,但最终以我烂渣渣的算力,还是不可能算出结果,于是就有了一些专业的软件去完成这些专业的事情,我们需要准备的只是给软件提供素材。

还记得大三大四上某次专业课上,老师说如果你们要读研,那么你们的课程里面就一定会有数据分析这个东西,详细告诉你这些应该如何操作,什么类型的东西怎么个处理、用什么去处理。但因为我没有读研,我的毕业论文也不需要做正交实验之类。本科生的毕业论文基本上是不要求用任何专业的统计工具得出结果,于是这就导致了本科生的专业课程里面没有数据分析这个东西。

我个人觉得这个挺可惜的。无论是数据分析还是文献检索,我觉得都是科学研究最基本的技能。为什么在大二的时候,我们就已经有了文献检索的课程,但是数据分析却始终没有被纳入基础课或者专业课里呢?

周一的晚上,我粗略地翻了一下《深入浅出统计学》那本书,相对于几年前我已经看过的那本《深入浅出数据分析》我觉得《统计学》那本书偏原理多一点,《数据分析》那本书在R语言的应用方面多一点。虽然实际上从根本上说两本书是有交集的。《深入浅出数据统计》那本书虽然很厚,但是当年我很快就看完了,但是几乎是同时买回来的《深入浅出统计学》,我却一直都没有看。这一次之所以我又把这两本书拿出来,是因为今年单位我要写的那篇统计分析我想用一些专业的科学方法得出某些结论。我一向是个现买现用的,但是当我粗略的翻过《深入浅出统计学》那本书之后,我发现里面的例子好像跟我的实际工作没有直接联系,我不能简单的套用。如果说《数据分析》那本书是偏向于应用,那么《统计学》则偏向于原理。现在我要临时抱佛脚,当然我关注的主要是应用,于是这就得出了为什么我要把《深入浅出数据分析》那本书也一并拿出来,结果发现几年前看的书现在再翻,里面的东西我几乎忘记了50%。

现在我的打算是,继续按照我往常的习惯去写我的统计分析,写完那个以后,我不会急于的完结,会继续把这两本书都看完,然后试一下能不能用一些科学的手段为那篇统计分析添砖加瓦。

2021-03
9

酝酿着

By xrspook @ 8:51:01 归类于: 烂日记

无所事事就意味着,我正在酝酿着某些大project,但实际上具体是什么我还没想好。今年一开始的时候,我已经计划着要买一些书,我的书单里面一共有9本书,主要是几个类别,Power BI的、Excel的,Python的,也有其它数据分析类的。内容可能会有些重复,但是因为不是我自己给钱,所以重复也无所谓,最重要的是我要对这些工具有一个了解,然后我才好判断到底哪个才最合适。所以跟之前不一样,我不会每一本都细读,我会快速过一遍,知道他们的用途以及优缺点,然后在进行拿来主义,最终决定哪个或者那些结合才最适合。

现在摆在我面前的是一堆没什么逻辑可言的人,他们想到什么就做什么,同一个表,每个月出来的款式都不一样。为什么每个月都要调整呢?这就意味着一开始设定的那个规则不合理,因为把太多情况都例外出去了,但是有些时候,并不是规则有问题,而是我也说不准那到底是怎么回事,但他们就喜欢搞特殊。为什么要每个月的东西都不一样呢?为什么要为自己设下这些可能犯错的陷阱呢?数据处理这种事跟艺术家搞创作不一样,数据处理的规则老是变,当大量数据来临的时候会措手不及,完全搞不过来。之所以会发生这种事,是因为他们从来都没有从一个大局的层面去思考他们正在做的事,只是在得过且过,做完这个改一改然后下一个,但是这一个跟下一个有什么异同呢?为什么这一个跟下一个就非得用不一样的方式对待呢?他们没考虑过。在不应该做减法的时候做减法是他们经常做的事。之所以这样,大概是因为他们一直以来都没有被一些很死的规则限定住,所以他们老是变。我喜欢用一套规则去弄通所有的东西,于是几乎每次遇到这种人,我都会很烦。我讨厌这种事情,所以我必须做出一个系统性的东西,让他们完全遵照我的规则去做,不再让他们随心所欲。其实这种事,我不是第一个遇到的人,所以肯定已经有一些很成熟的方案,直接买过来就行了,但是我觉得。学习和研究最大的快感是让我做到别人之前有没有做过的事,有没有做过其实无所谓,反正我没见识过。从0到1获得的过程我很享受,我不知道别人会不会。如果可以选的话,很多人宁愿选择遵循别人的规则,而不是设定一套规则让其他人都去执行。我不知道这种制定规则让别人去做的事算不算是女王的范。之所以要这样,我不过不想被他们的乱七八糟搞的我好烦而已。碰到有逻辑的人,我们还可以讨论一下设定条件制定规则,但那些毫无逻辑可言的人。我只能为他们设定规则,然后要求他们必须严格执行。从前的编程是为了解答出别人的题目,而现在的编程,我是要实现自己的目标,虽然那个目标很确切到底是什么我还没想清楚。在我开始之前,我必须要把这个目标明确的定下来,然后才好找方法实现。

不是每个人都喜欢亲自去探索,但我就是那种人。

2019-12
7

2020年的目标:学习R语言

By xrspook @ 21:57:29 归类于: 烂日记

昨天我花了很多时间去研究R语言里面的绘图。R语言这种东西是今年夏天我才开始接触的,当时我看的是head first系列的数据分析。在这本书里面,R语言用得非常多。首次接触那个东西时我就觉得,那个比Excel厉害太多了。作图这种东西,貌似是美工,但实际上,在R语言里面,只要你想得出来,你就可以通过编程去实现,牛逼轰轰的。无论你想得出的,又或者是想不出的功能,它都能做到。突然之间我觉得自己在统计分析这个问题上真的是个白痴。一直以来我都觉得自己在理论知识方面很缺乏,但原来我在技术的使用方面更加是井底之蛙。如果我要提高我的理论水平,如果直接从案例从技术方面入手,也是可以实现的。我得知道别人是怎么做的。别人用什么方式去实现的。为什么别人可以从那个视角去分析问题,而我却没想到。同样的原始数据,为什么别人就能揪出一些我没想到的东西。这一点我必须努力加把劲探索。

昨天从中午开始我就纠结R语言的散点图。散点图这种东西,Excel里也能做,但问题是Excel里面没办法做出矩阵散点图。之所以我中午开始纠结R语言,因为我在几个月前到数据分析教程里知道学习里知道了R语言可以用几句非常简单的编程,绘制出神一般的的矩阵散点图。矩阵散点图这个东西,第一次看到就把我惊呆了。在那之前我见过的散点图只是两坐标或者三坐标上面标注点,绝大多数情况下我只看到过两坐标的。我们大都从点的分布,点的密度,点的聚集模式得出一些规律,找到一些结论。这是以前我一直在做的,我也只看到别人做到了那个程度,但在今年夏天我学习的那本数据分析里面,他们用两维数据作出一个散点图,在用第三维数据对比N个散点图。这些矩阵散点图是一次性做出来的,并不需要一个个的手动合并,而且那些散点图也不需要手工去设行列数。你只需要提出处理数据的要求,他们就会选择最佳的方式表达出来。第一次看到那个的时候,我觉得那简直是屌爆了!前几天我也尝试过用我的数据做矩阵散点图。后来发现,别说散点图,即便是要我提供一个能正确读取数据的csv文件好像也很麻烦。昨天中午,当我把一个一个Excel做出来的散点图罗列堆砌到Word里的时候,我明白到如果只是一两个,没问题,但我需要2个散点图一起做对比,4个散点图一并罗列出来找差异,显然只能使用矩阵散点图的方式,而不能一个一个贴浪费篇幅且让人疲劳。

在学习数据分析那本书的时候,虽然我也用过R语言,但是那纯粹是把书本上的命令行抄写过去,我完全没有动脑筋,所以当我把自己的数据放到R语言里面处理,希望得到我想要的东西的时候,无论我怎么纠结,貌似都得不出我想要的东西。在奋斗了几个小时以后,我才发现原来plot跟xyplot是两个完全不一样东西。plot是R语言的一个原生作图函数,xyplot则需要调用lattice数据包。数据包就像是一个插件,不过lattice那个插件已经常规到已经默认安装在R语言的主体软件里。在折腾的时候,我因为发现plot函数xyplot函数得出来的图不一样,我才明白到了这点。最明显的区别是他俩的图形颜色不一样,坐标轴的字体不一样,以及坐标轴的刻度分布不一样。我个人觉得lattice数据包作出来的图要比R语言原生的好看一些。

昨天我足足折腾了接近12个小时,才稍微得到了我想要的东西。之所以说稍微,是因为某些因素我还不能自如控制,有些参数我纯粹只是停留在猜想的层面。我不能满足自己只知道一些。我也知道有一些轻量级的作图软件大概也可以做到我想要的功能,但既然R语言如此强大,我愿意花更多的时间去认识他拥抱他。

用编程的方式去作图,想想都觉得这实在太牛逼了。于是,昨天晚上我也定下了目标,2020年我要加把劲学习R语言。

2019-07
13

从收集数据开始

By xrspook @ 18:14:00 归类于: 烂日记

在大数据的年代,对大公司来说,收集信息不是难事,怎么把信息经过一番折腾以后,变成他们所要的信息,指导他们的宣传、生产,甚至是发展方向才是目的。但是对一些小公司而言,把最基础的数据收集完全也不容易。之所以这样,是因为他们很多都没有感知到数据的重要性。对很多人来说,工作只是一个应付的行为。应付领导布置下来的任务。做完已经已经很了不起,更不用说你不可能奢望他可以在那基础的上发展些什么。因为这样的态度,所以仅仅收集好任务要求的那些数据对他们来说已经完成任务。他们不会帮你思考实际上还有哪些东西是需要收集整合的。就因为这样,我们经常会错过很多。

我觉得,在大数据的年代重要的并不是具体某一条数据所包含的信息,要把无数条真实的数据放在一起才能得出某些结论。首先,这些数据必须是真实的,而且这些数据的维度必须一致或者类似。如果数据的详细程度不足够,就得通过某些技术手段把数据整合起来。有可能那条数据代表某一个人,又或者那代表某一个工序。我觉得大数据的这种东西除了要求数据的数量够多,也要求每一条数据反映的维度够多。

昨天在和新招回来的小妹妹聊天的过程中我发现,原来她大学所学的金融学和会计学这两个专业跟我所读的食品科学与工程.在毕业论文这个问题上,差别非常大。因为我们完成毕业论文的前提是必须完成毕业实验,然后我们才可以根据那个数据写我们的东西。而她的论文,据说数据完全是通过收集回来的,她自己都觉得不太完整,但她已经尽力了。她要分析搜集回来数据背后的某些规律和原理,而我们要一开始就做好规划,首先设定我们的目标,然后设定如何验证那个结果,最后通过我们的实验发现一些规律,得出一些结论。非常有可能最终我们都没办法把那个毕业实验的东西提升到理论的层次。因为要做到那个的话,有些人可能研究一辈子都做不到,更何况我们只有区区一年的时间。但相对他们而言,我们经历的显然要更完整一些。对我们来说,从一开始我们就必须知道,我们要收集什么数据,以及为什么要收集那些,但是对他们来说,很多数据都是现成拿过来的,他们只能做减法,没办法做加法,但对我们来说却不一样。有可能在设计的时候,老师就觉得这样不完备,我们可以增加一些条件之类的东西,又或者在我们实验的过程中,我们要根据实际情况进行数据收集的调整。从表面上说,我们的论文貌似复杂麻烦一点,但实际上我们的内容更自由。我受过的教育让我觉得白手起家没什么,那些对别人来说是额外麻烦事的东西对我们来说再正常不过了。大概因为这样,所以要一个理工科生去解决某些貌似不是这个专业的问题的时候,会收到神奇的效果。

大概是命中注定,高考的那一次我达不到平时的水平,于是没有去广外,而是去了华农。

2018-04
18

突发任务

By xrspook @ 11:26:12 归类于: 烂日记

昨天下午离下班还有要半个小时的时候,我突然被叫六楼会议室。去之前我根本不知道那是要干嘛,之后才知道原来那是在整我们单位即将招标上马的智能化系统需求。其中有一个叫做数据分析的模块,他们不知道要有什么要求,所以就把我叫过去了。实际上,我也不能代表单位的所有要求,因为有些东西是我不涉及的。那个模块不是一个单一的功能,而是一个聚合的功能,除了内部汇总以外还要有外部数据引用。你们要我提一个什么样的形式呢?我一下子没办法回答出来。因为数据分析这种东西虽然整体可以说是有套路,但是实际上根据实际需要以及个人的喜好,还是不一样。一样的数据可以处理出完全不相同的效果,于是我就点迷茫了。我有那么多奇思妙想,今天我可能以这个单位划分,明天又可能是另一个,今天领导侧重的指标是这一个,明天他却对那个比较感兴趣。这是一个动态变化的过程。数据分析这个模块做出来,其实就是一个数据的汇总。我觉得虽然分析的方法很多,口径也各不相同,但是应该也可以做出一个大体的形式。大体的形式是给别人看的,具体如何操作是给我们自己用的。我不知道他们最终的要求是不是要做到连傻瓜都知道该怎么用,但实际上,数据分析最考验人的并不是实现的途径,而是你要实现些什么。当然,实现的途径也很重要,但是只要你掌握了一定的技术和方法,那些都是手到拿来的事。至于要实现什么,这个就很难说了。除非你一直学习一直进步,否则你就一直只会停留在某个阶段。当然你就会觉得要做的东西也就那几样,知识限制了想象力。

在做这个东西之前,参与这个项目的其他所有人都几乎已经花了一个月的时间去全国各大软件公司跑,看一下他们公司的情况,也看一下他们曾经做过的项目。我是唯一一个哪里都没去过、什么项目都没见过的人。所以昨天突然把我叫去,我完全不能理解如果他们要我提要求我到底要把要求提得有多细。一方面是因为我不知道他们到底能实现些什么,因为过去的经验告诉我,即便我们有再美好的设想,一到写代码的那一步,他就会告诉你,太复杂了,做不到,或者太麻烦了,他们不想做。显然,为了避免这些不必要的烦恼,我们得把各种最难实现的要求都写到标书里。于是到他们不想做的时候,我们也有依据逼迫他们必须做。因为之前的调研我完全不知情,所以现在要我提出一个大概的模式我很难说得出。这种东西只有你见多了你才知道该怎么处理。细节的部分我可以做得很到位,因为只要我想得出来的我都可以罗列,问题只是他们能不能做到。但是总体的模样,我需要有个大概的参照,才能提出要求,而这种东西我该去哪里找参照去呢?以前我们单位,甚至我们单位整个系统又或者说这个行业的全国其他企业都没有可参照的东西。因为这个行业的技术水平一直处在拖后腿的状态。不合理的东西长期存在,应该去改的东西从来没有人提出来。

昨天让我觉得最搞笑的是总公司下来负责这一块的人居然有那么天方夜谭的说法让我们晚上都在那里一起写。就像上学一样,你不做完作业你就不能回家。情况真是这样吗?对我来来说难的不是写了几百字,而是你到底要以什么形式?正是因为我之前没去调研,所以我就要回去翻查资料。参考一下高大上企业是怎么整的,这种事情不是靠几个人坐在一起侃大山就能整出来的。他的这种一起写的“命令”,让我觉得他根本就只是逼迫着所有人去完成任务,而且只是应付完成,不是把东西做到最好。作为一个上级管理者,我质疑他的管理思路。不是人人都会得到我的尊敬,显然他就是其中一个我不喜欢的。

要有底气首先得事先积累得足够多。

© 2004 - 2024 我的天 | Theme by xrspook | Power by WordPress