2020-03
22

折腾不同版本的WXR

By xrspook @ 22:09:44 归类于: 烂日记

我只是想把自己从前的东西重新拿出来,原来这也会很难,这是我完全没想到的。要找回那些尘封10年的文档,并不算太难,翻一下电脑也就找到了,虽然有点坎坷,因为当时备份的时候,我没有标注是哪个网站的,xml都放在一起,我以为那都是我主站的,后来,同一个日期不同的文件大小才让我觉得有蹊跷。xml文档找到了,接着要把它转化为WordPress的格式。当年用来转换文档的脚本找不到了,翻遍家里电脑的各个盘都没找到。之所以在家的电脑找不到,是因为当时干这事我是在单位完成的。所以理论上单位的电脑应该有,但是因为换过电脑,我也清理过同步盘,所以会不会也因此清理掉呢?这个我不确定。我觉得,在我转格式的时候,我仍然在用Dropbox,里面的很多东西我的确已经清理了,于是这也很好解释,为什么我家里电脑的Dropbox文件夹里找不到那个脚本。家里的电脑没有,单位的电脑可能有,但还有一种可能性,我把那上传到网盘,于是就把那同步软件里撤掉了。我只会上传到两个地方,一个是百度,一个是115。115打开很麻烦,我也懒得下载打开它的工具。百度上果然就有我要找的东西,但当我想把整个文件夹下载回来的时候,问题严重了,那里居然有4000多个文件。下大文件的时候度娘就很慢,下小文件的时候度量更慢,那是直接10KB以下的速度。我直接去网页版的度娘找到我要的东西,不在客户端里等它慢慢下载了。

东西下载回来以后,我再翻查我的日志,我需要安装一个Python。我默认安装的是现在最新的版本3.7.7,但运行脚本以后却发现才刚刚开始读取脚本,就马上报错。查找原因,原来是版本之间的语法差异。才刚刚开始就错,要运行完整个脚本,我真不知道还得修改我根本不懂的语法。所以,我把最新的Python卸载掉了,重新安装当时我就在那个版本下转换的2.6.5。2.6.5是一个什么概念?这意味着时光倒流10年。

出乎我意料,软件装好以后,我几乎没遇到困难就可以把BlogBus的文档成功转为了WordPress的格式。在下载Python的时候,我顺便下载了XAMPP,同样下载的是最新的版本。前段时间我才刚用过,觉得挺爽。我也下载了最新版的WordPress的5.3.2。同时把导入插件也装。当我试图上传,已经转过格式的xml是,上传报错。原来这才是噩梦的开始!不同版本的WordPress里的xml格式各不相同,几乎可以这么说,越往后越严格越来越严格了。于是我又安装了WordPress 3.9和2.8。3.9的WordPress在PHP 7之下马马虎虎可以运行,2.8是直接连数据库都连不上…… 于是我甚至不能从通过低版本的WordPress N轮导入导出拯救世界……

没办法,我只能研究我手头上的xml,看看和现在的标准版差多少。首先,必备填写一个WXR的版本号。在旧版本里,这条规则是这是不存在的,所以要手动加入。同样需要手动加入的就是,即文件类型,因为现在的WordPress把文章分成了post和page。把这些搞定以后,基本上正文就可以导进去了,但是分类和标签还是不行。因为现在的分类和标签,WordPress使用的是一个叫做nice name的东西,你必须在分类和标签那里,加上这个标注0才能识别的出来。评论那里,当年就试过在2.8的版本里面评论正常,但是在2.9里面,有评论的话会只剩下一条评论。研究发现,那是因为评论有了一个id号。BlogBus转码过来的东西没有id号,所以大概东西就自动覆盖了。除了这些BlogBus和WordPress之间的格式问题以外。我的文章里还有格式的=问题,因为有些东西,不完全是我自己的东西,好些是我从网络上搜集回来的。当时我保存了网页,在BlogBus发布的时候直接复制到可视化编辑器,所以格式也带入了。如果当时我懂得先把东西贴到记事本,然后再剪切粘贴一次,就不会存在这种问题。除了格式以外,从前的blog里还有图片,但经过这么多年,图片都已经失效了,链接摆在那里只会浪费加载时间和访客的期待,所以我要把图片链接也尽可能去掉。有些图片链接是我没办法去掉的,因为用正则筛选的时候会遇到一些很屌丝的句子,到了某个点,就卡住了,但实际上那并不是这个标签的结束。

搞清那些规则,总结出我的对策。一次又一次查找替换,一次又一次导入删除再导入。花了一整个下午加半个晚上的时间,我总算搞定了从前BlogBus上的BLF!文章238篇齐全,评论56条也齐全!!!其中可能会有一些小格式上毛病,但是那并不是共性的问题,后续还得靠运气慢慢修改。

非常有必要记录一下我在Notepad++上做的WordPress不同版本xml转换操作

/*操作开始*/

普通替换《channel》为《channel》《wp:wxr_version》1.1《/wp:wxr_version》 /*WP XML共性问题*/
普通替换《category domain=”category”》为《category domain=”tag”》
普通替换《dc:creator》《/dc:creator》
为《dc:creator》《![CDATA[xrspook]]》《/dc:creator》《wp:post_type》《![CDATA[post]]》《/wp:post_type》《category domain=”category”》《![CDATA[回到过去——Betty迷的独白]]》《/category》 /*《/wp:post_type》前是WP XML共性问题*/
普通替换《BR》《BR》为《BR》
普通替换《!–msnavigation–》为无
普通替换[summary_of_BLF]为[summary_of_BLF(from_rincondebetty)]
普通替换[summary_of_EcoModa]为[summary_of_EcoModa(from_rincondebetty)]
普通替换《category domain=”tag”》《![CDATA[(from_rincondebetty)]]》《/category》为无
普通替换[Yo soy Betty, la Fea]为[Yo_soy_Betty,_la_fea]
普通替换[JEA’s Writting]为[JEA’s_Writting]
普通替换”博主”为”xrspook”
普通替换《i》为无
普通替换《/i》为无

正则替换category\”》《\!\[CDATA\[(.*?)\]为category\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换tag\”》《\!\[CDATA\[(.*?)\]为post_tag\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换《[TDSFHI].*?》为无
正则替换《/[TDSFHI].*?》为无
正则替换《P.*?》为《P》
正则替换《(table|tbody|tr|td|div|span|img|script|font|hr).*?》为无
正则替换《/(table|tbody|tr|td|div|span|img|script|font).*?》为无

《wp:comment》《/wp:comment》中增加《wp:comment_id》1《/wp:comment_id》,id数字递增 /*WP XML共性问题*/

/*操作结束*/

注:请自行替换《》为<>,用尖括号那是全部都挂掉无法显示的节奏啊啊啊

这个是一次死去活来的经历啊啊啊啊啊啊啊啊啊啊啊啊!奇怪的知识又增长了不少……

2009-11
4

YSBLF十周年献礼

By xrspook @ 18:31:46 归类于: 烂日记

经过几天的努力,把多年前收集过来了5个大部头YSBLF放到了Youku上。算是对YSBLF 10周年的一个支持吧。从前的网络没有那么大的空间,以前的网络视频还没有兴起,但现在,想怎么放就怎么放,到处都是512KB的上传速度,能不能把600MB的单个文件传到网上纯粹是耐性的问题。

有兴趣的同学可以看看我的YSBLF十周年献礼,还会继续往里面放一些之前做的小型YSBLF/EcoModa的片段,但应该不会再做新的了。而把以前收集到的东西整理共享一下更为实际,我是这么认为的。比如说把很多现在已经无法打开的网页,打包成.chm然后找个地方放,是个不错的选择。

10年,10年是个什么概念?!10年是一个坚持。如果那恰好是最风华正茂的10年呢?我也不知道该怎么形容了。

几天没看YT的东西,今天突然发现利器不行了,气死我也~~~ 又在想办法,试过很多很多,但不行,M的,真的很想f*ck一下那个该死的g*f!咫尺天涯,都是那只鬼害的!!!!

在接下来的10年我会疯什么呢?如无意外,应该是GA。

2009-02
14

为诺言而战

By xrspook @ 23:59:57 归类于: 烂日记

2009-02-12我决定要为BLF粉丝们在2009-02-14西方情人节到来之前做点什么。2009-01-12日晚,终于看完了网王,于是抓紧时间开始了抄写和翻译。翻译的量其实不大,于是那天晚上用了2个多小时就完成了,很高兴地回宿舍休息,不过,那时已经是第二天凌晨了。

2009-02-13,我只剩下一天时间,必须加倍努力。我的目标是在2009-02-14凌晨之前完成并上传,但,108条字幕的时间轴我做了整整一个晚上,到14号凌晨1点多才完成,经过反复多次查错后开始调格式,压片。由于CPU老,因此压约10min的片子需要大概20min。压片完毕后试看,发现问题了!本该显示ñ的地方显示“?”,显然,我做过把ANSI另存为Unicode的操作,但并没有做到位,于是在可容Unicode的.ass字幕文件里仍出现乱码。无奈,修改后重新压制。

压制成功后仍旧需要试看找毛病。一切顺利后开始在YouTube上传。嘿嘿,YouTube现在牛了,有了同时上传多个视频的功能,于是我把情人节巨献和以前的成果一起上传。上传结束未必就代表万事大吉,还要等待审核,然后才可以看到公开的版本。令人沮丧的是我千辛万苦完成的巨作居然没有通过审核!!!!看看视频的时间,哦~~~~ 痛,十分痛!是“11:05”,YouTube的规则是单个上传的视频不能大于1GB,时间不能长于10min,即便是10:59还是可以的,但我就多了6秒。6秒意味着什么呢?6秒意味着如果我要再剪切源视频到小于11min,然后把时间轴重调,天啊~~~ 其实之前我已经很努力地想把视频前面无关的部分剪掉的了,但怎么都去不掉那么几秒,现在,我该用什么软件剪呢?苦恼之际,我想到了直接剪含字幕的.rmvb文件,以前为了剪掉无关片段的时候曾经用过,现在是时候动用了,那么我就无需调节时间轴和重新压片。想到要剪片,却怎么都找不到从前剪片用的软件,于是急忙在网上下载一个。剪了,终于剪了,我的“戳”——“字幕、时间轴:xrspook,英文歌词:kelanti”完全被剪掉,心痛啊!但总算把时间缩短到10:56。于是我又想到再次建立同名.srt文件,然后以该.rmvb为源文件把字幕压进新的.rmvb。不过呢,这个貌似很牛B的计划没有成功,呵呵,原来不能用.rmvb压.rmvb。

终于,再次“万事俱备,只欠东风”重新开始上传视频到YouTube,并把视频上传到我的国内老家Tudou,后者我是用客户端iTudou完成的啦。

又不知过了多少时间,终于完成上传,两边的审核也都通过了,看看时间,已经是2009-02-14的凌晨5点。

为了那个只有自己作证,可能毫无意义的诺言,我无怨无悔。这就是心血来潮的激情,要一直保持?我做不到,神仙也做不到,值得庆幸的是在需要我突击的时候我敢于爆发,并能持续战斗直到胜利。

不知道自己为什么要限定在某个特定日子之前完成这任务,或许这就是射手座勇于挑战的可爱之处吧。

PS: xrspook刚做完的和以前做的……

© 2004 - 2024 我的天 | Theme by xrspook | Power by WordPress