一个客户的数据的数据全部丢失了,他也不太懂,手下的人都没有备份,IT行业最怕的也只有这个了,什么也不做备份,就等着麻烦来了。
客户是一个在美国居住有20余年的老人,自从来到中国,先后被人骗去了有20多万了,反正听我们经理这么说的。那位老人见过,显的很苍桑了,看着有些可惟似的,或许是受的伤太多了吧,让人一种苍桑的感觉吧。
以前的数据库由于硬盘坏了。联系了些国内的一些数据恢复公司,好像都无对策,没有办法,只有拿到美国去修理了,不知道数据能不能恢复过来了,我们这里其实可以什么也不用管的,不过看着这样一位老人,受了那么多次伤害,让人实在放心不下的,于是想办法帮他们添加一些数据了,2万多条数据,他们花了一年多的时候从各大网站手工录入,确实很累了,硬盘一坏,一年多的心血完全没有了,实在令人心痛。我们这里也不可能像他们一样手工录入,只有用小偷程序了,把数据从各大网站上偷过来,入到我们的库中。不过这样并没有完全结束,有个大问题,就是他们的数据结构设计的实在让人费神,每个功能都单独用一个表格的,其实完全没有必要的,结构都一样的,完全可以用一个的,还有些日期类的字段他们都写在文章里面了,没有单独用一个字段来存储,而国内可以说95%以上的CMS都是用一个单独的字段的,这样有利于以后特殊控制,如更新文章日期。
辛苦的工作了两个工作日,采集数据才不到5000,实在太慢了,没有办法,用的新云的CMS,采集好像没有办法过滤A标签的,有些网站的链接要去年不保留的,以前用过,但过滤A标签没有用的过,没有办法,还好,系统是开源的,用的是ASP编写的,所以修改起来要好一些的,用了两个小时的,没有办法,只有用断点的方法一点一点的测试,找出来原因,然后加了些正则表达式类的语句才算把A标签过滤掉。还有问题就是采集的都是大型的网站,他们不像中小型的网站,只有一个模板的,最多不会超过三个的,他们的实在有些不好采集的,看来他们早就意识到这点了,怕被人给采完了,呵呵!一个个的都不一样的,有时候写个采集项目只能采集几百条信息,真正入库的还不到一百多条信息呢,
明天的工作可能还是这件事的,唉。。。没有办法还有许多东西没有采集呢,这一周不清楚能不能采集完呢同,还有把数据导入到他们的原始库里呢,实在费时间的呀!