Shell's Home

一个有趣的python问题

Jun 24, 2015 - 1 minute read - Comments

quiz 今天在twitter上看到一个有趣的问题。 t = (1, 2, [30, 40]) t[2] += [50, 60] 结果是什么? t = (1, 2, [30, 40, 50, 60]) TypeError 都不是 1,2都发生 出乎意料的,结果是4。 为什么,我们来分析一下。 disassemble >>> t = (1, 2, [30, 40]) >>> def f(): t[2] += [50, 60] >>> import dis >>> dis.dis(f) 以下是结果。 LOAD_GLOBAL 0 (t) LOAD_CONST 1 (2) DUP_TOPX 2 BINARY_SUBSCR LOAD_CONST 2 (50) LOAD_CONST 3 (60) BUILD_LIST 2 INPLACE_ADD ROT_THREE STORE_SUBSCR LOAD_CONST 0 (None)

list.append的性能分析

Jun 17, 2015 - 1 minute read - Comments

在python2.7.5的源码中,list的append操作最终调用的是Python-2.7.5/Objects/listobject.c:266这里的app1(请帮我复核一下,Python的源码有很多隐藏的手脚不容易看见)。 在app1里,使用了list_resize来进行resize,而list_resize间接用到了PyMem_RESIZE。按照我的阅读,这个应该是层层转到realloc上的。 下面就是查glibc源码的事了。我看到的应该是glibc-2.19/malloc/malloc.c:2951这里的__libc_realloc函数。这个函数很长,我大致读了一下。这里分了两个分支。一个是2992行的chunk_is_mmapped。如果我没理解错的话,我们的内存块不可能没有mapped。那么另一个就是2996行的HAVE_MREMAP,这个是编译时宏,我也不知道我的系统上是不是打开的。如果没打开的话,肯定是走alloc,copy,free的流程。 所以我就用strace跟踪了一下,结果确实调用了mremap。 这个函数在linux内核中。我使用的源码是linux-3.2,结果在linux-3.2/mm/mremap.c:535这里。 大致看了一下函数实现。首先试图处理缩小,如果不行的话试图在扩展到最大(vma_to_resize),如果这样还是不行,先试试看能不能追加映射(vma_expandable/vma_adjust)。如果都不行,他还是用的创建并移动的方法。(We weren’t able to just expand or shrink the area, we need to create a new one and move it..)。 所以,总体来说,list.append的复杂度还是O(n)级。但是由于remap的内核实现,因此比直接搬数据应该会快一些。具体表现可能要以测试为准了。 但是这里就有一个疑惑。难道python现在删除了复杂的内存层,将mm管理直接用系统的来支持么?我记忆中python源码解析里讲过python有一个巨复杂无比的内存控制系统。难道全用系统管理了么?对此我查了一下 2.6 / 2.7 的python mm文档。里面倒是明确提到不要同时使用系统api和python api来管理内存。但是并没有明确说明如何处理的实现。但是我在系统里并没有找到第二个实现(debug不算),唯一的实现在Python-2.7.5/Include/pymem.h:76,是直接转到realloc上去的。 貌似在新证据出现前,我得认为python使用的glibc api来处理的mm问题。

携程本次问题分析

May 29, 2015 - 1 minute read - Comments

携程这次的事情,实在没啥好多说的了。要骂的话,早就骂过了。我们就来说说携程这次事故中,我们能确定的事情吧。 小道消息 首先我要排除一切小道消息,包括数据库被“物理”删除了,前任总监报复,运营妹子和高管好上了什么的。昨天和朋友开玩笑,物理删除要怎么做呢?你要盯着硬盘,直到他羞愧到不能淡定,自己从服务器里裸奔出来,纵身从楼上跳下去。这才叫物理删除。第二天报纸准出新闻——硬盘们,不要着急,等待反弹。。。 至于前任总监报复,运营妹子和高管好上了。我越听越像电视剧,还是国产的。这些没影子的事情就不多说了,我们来说点有用的。 事实 首先,我们要搞清楚一个问题。携程自己说的话,是没用的。 是的,无论是故障时的混乱情况导致说错话,还是出于稳定情绪角度的说辞,都没太大价值。最多用来旁证分析。我们还是要追踪当时发生的,确定无疑的事件,以这个来佐证。 我们可以确定的事情有: 携程的系统挂了近12个小时。 挂掉的是应用层,而不是数据库层。 携程下午到晚上悬赏解决问题。 恢复后,历史数据存在,当然部分出问题时的数据丢失(这是必然)。 14是大家都看的到的。2是因为没有数据库连不上时的各种应用错误提示,干脆就是网页直接失踪。这说明问题不是光缆挖断,也不是数据库(至少不能直接佐证)。能够确认的是应用确实没了。3是来自道哥的消息,我觉得应该比较靠谱(毕竟涉及钱)。 分析 好,综合123,我有个推论。携程在出问题的时候,很快就知道了是应用的问题(至少确定应用有问题)。然后试着恢复,但是无效。原因携程自己都不知道。 这是自然。如果携程不知道应用层有问题,太业余。没试着恢复,太二。恢复了有效,不像。携程知道为什么,那还发布个毛悬赏?综合起来,那就是恢复了没见效,而且携程自己都不知道原因了。 同时这个结论也隐隐的排斥高管报复说,至少携程当时不能确认是高管报复,而是作为通用性技术问题来处理的。如果是高管报复,你找外人来管个毛用啊。再黑自己一遍? 当然,这个推论有个前提。携程的悬赏不是为了转移视线的烟幕弹。不过看当时的情况,我觉得这种可能不大。 那么问题的技术细节呢?不知道。携程自己找到没找到原因?不知道。我们知道点啥?数据库备份没事。 是的,我没法确认当天数据库没事(因为我没有当天订单)。不过看事后没人吐槽,估计是没事的。 事后 携程事后说是程序员错误的删除发布的应用,这个和上文“问题出在应用层”一致。在问题原因上,携程没多大掩饰的空间。但是“程序员误删除”这个说法是真是假就不好说了。实话说,这个说辞显得像是背黑锅,推责任。但无法排除,确实可能是事实的真相。 但是这个说法无法解释的是,为什么恢复时间那么长,而且还开出了悬赏。编译整个系统,然后重新发布确实很慢。但是一来时间不会如此长。二来更关键,程序员非常清楚问题在哪,要花多久。你找个技术专家来弄这个事情也未见得快。而且就算要找,也肯定限制在所用技术系统的编译和发布专家里找,不会满世界的开悬赏。如果真的是重发布时间过长,领导层又挂出了悬赏。这无疑是在瞎指挥。 最后就是“携程在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作”。这里明显漏了一个要点”加强部署和恢复演练和自动化推进“。 一般来说,在系统设计的时候,首先考虑的是“如果不小心被删除了怎么恢复”。而不是“如何防止错误的删除”。就像我和一位同事解释的,你可以将rm替换成别的程序,但是如果对方用的是dd呢?如果是chmod呢?如果下次,操作人员执行的不是删除,而是格式化呢?或者是更改ACL权限错误。这无疑要求限制所有操作人员能做的事情。 银行里就是采取的这种思路。每个运维能做的事都被严格限死,很难越雷池一步。但是同时要注意两点。首先,银行的业务相对固定,运维要干的事非常规范。携程的运维恐怕很难做到如此规范。其次,银行是有严密的恢复机制的,恢复机制(包括演练)也是运维的固定工作之一。 考虑一下。如果没有恢复演练。那么万一因为不可知因素,携程需要再度恢复(好倒霉。。。)的时候。运维有没有删除数据的权限呢?有没有修改权限的权限呢?携程的”杜绝技术人员误删除“的手段,还要不要坚持呢? 多说一句 网络上有个哥们猜测”可能是高管报复“的时候,推测是在编译环境里做手脚。这个和我当时的观点一致(不代表我认同他说的这个事实)——要让多个系统始终编译和发布了都不能工作,最有效的后门就在编译环境里。毕竟很少有代码能够跨越多个系统,但是几乎所有项目都会使用同样的编译环境。

程序的持续更新

May 27, 2015 - 1 minute read - Comments

今天有个朋友来问我sql2000的问题,数据库装好后各种,总之就是不能用。我说我已经很久不用sqlserver了,就算用,也绝对是用2008而不是2000。不过我还是给了一点小意见——重装整个系统再重装sqlserver呢?结果他和我说,就是重装惹的祸。 这是一个很老的业务系统,数据库只能用sql2000。整套系统运行了很久都没有维护了,基本就是硬盘坏了换硬盘,也没有多的烦恼,很轻松。但是最近CPU挂了,连带主板也有问题。这类的老主板+老CPU不好买,所以干脆用新件起系统。但是windows系统更换主板后无法直接识别,所以系统要重装,牵连sql server要重装。装完了远程就始终无法连接,要不然就是能连但是不能写。 我靠还有这种事?当年不是用一样的系统组合,一样的安装盘,一样的维护人员。为啥今天就出问题? 结论是不知道。但是这个事情不能因为不知道就不做,所以问我有啥想法没。 我问他能不能升级,告诉说没戏,应用绑死了。整个系统必须用sql 2000,而操作系统只能是winxp和win2003。好家伙,这三个都是超过维护期限的,连漏洞补丁都没了。那这个没救了。。。 想到帮另一个朋友维护的系统,也有类似烦恼。在老版本的php上写的系统,在新版本的php+mysql组合上就无法执行。所以必须安装老版本的CentOS。而老版本CentOS是有退役期限的——一个系统也不可能常年累月做下去吧。所以未来如何,一样很发愁。类似的事情数不胜数,甚至包括我自己写的某个系统,用了老版本的sqlalchemy导致升级不上去。 有一类系统,需求不经常变更,系统压力很小,使用场景很专一,结果就是代码几乎不需要维护的可以一直用下去。不得不说,这种系统比其他系统是简单多了也幸运多了。但是再耐用的代码,也是有服役期限限制的——一般和整台机器的寿命差不多,也就是7-10年。超过这个期限后,还要运行老系统,就要看负责是不是找的到人维护了。语言可能很少有人用,组件可能不能升级,牵连到系统都是老的,没有维护没有补丁。新设备上能不能装出来,有没有驱动都很难说。要照10年前的情况维护,还不如大量搜购老部件接着维护电脑比较痛快。 银行在上个世纪用COBOL写了大量代码,直到今天还在维护——但是代价也很大。银行不得不自己维持了COBOL的一整套生态系统,以至于我提到COBOL几乎就和银行话上等号。(当然,这也和COBOL本身和适合做这类工作有关) 如果没有银行那么大财力的话,要维护这种小系统,在短期内相当占便宜。但是如果在长期,万一出点问题,能不能搞定就有点存疑了。所以我建议维护这种系统的人,每五年做一次检讨,看看系统是不是重做一下,或者做一下兼容性升级,重写部分代码以便于在新系统上执行。这样也许不需要太大精力,就可以让整个系统顺利的再撑个5年。 无论如何,指望像房子一样,建好后就一直可以使用,不碰到灾害不碰到意外就可以用个几十年。这种事情对于程序来说几乎不可能了。程序更像是汽车,一旦过了20年,要找老部件就非常困难了。合理的选择还是弄个新的吧。

试题设计的原则

May 19, 2015 - 1 minute read - Comments

原则 其实主要就两点。 分辨率足够。 简单。 第一点很容易理解。你的题目必须能准确区分傻逼,普通人,和牛逼,因此最理想的状况是,傻逼考零分,牛逼满分,普通人在中间。所以你的题目应该简单。如果题目难到普通人和傻逼一起做不出,那就没有区分能力了。如果不是正好碰到一个牛人,你的考试只能让你啥都招不到。这会把你自己变成傻逼。 所以,你的题目应该有一半是普通人能够做出来的,而不是道道都是神一样的面试题。之所以你在网上经常看到神一样的面试题,那是因为。 大公司不缺应聘的人,所以他们的“牛人线”比较高。 你能看到的题目,都是最牛逼的。 当然,题目中确实应当有一些有难度的题目,用来区分真正的牛人。这部分人我们要特别料理他们。 复用题库 混合一个题库,每次面试抽取不同题目形成试卷,这是常识了。 主要是防止试题外泄,还有重复出题造成的疲劳。 当然,每个题目需要加不同的属性,用于后面的一些分析。在抽题的时候也需要参考属性,例如上面提到的难度。 经验题还是能力题 我把试题分为两个类型。一类是测试你是否用过某项技术,用多深。另一类则是你的智力如何,学习,沟通,理解能力如何。 可以预期的是,刚毕业的人,经验题得分会低一些。不过在实际生产中,这些人出活的能力一向不差。所以对于刚毕业的学生,可以在经验题得分上宽容一些。 区分领域 在试题设计中,经常需要测试多个领域。例如网络,系统底层,等等。 将多个领域的题目分开标注,有利于你最终评定这个人的技术范畴。例如系统底层出色,但是网络很糟糕,这显然就不适合扔去一个重网络开发的组。 限制总量 这点才是整个试题设计的核心难点。 长时间的笔试是很高成本的。对于被考试者不是什么很好的体验,对于考试者来说,要出题,要判卷。考试期间还要招待人家,进行计时。如同马拉松一样的考试没有任何好处——除非非常必要。 但是正常来说,技术面试应该要问系统原理,算法,网络,编程语言,智力题等等,至少这么五个方面。每个方面一道题区分普通人,一道题区分牛人。这就是10道题。再复合上经验和能力的区分,还有为了对抗偶然而要每个组合多几个题。综合起来可能多达20-30道。这样1小时的笔试时间,每道题上只有区区2-3分钟。这点时间根本不够考核一些深入的问题。 所以如何减少问题的数量,而非增加数量,才是核心难点。 我的想法是增加过程叙述题,让被试人对一些经典过程做描述,并规范他一定要描述到哪些方面。以此来分析他对一些领域的基础。但是这方法有个明显弱点——不好执行不好打分。 关于这方面大家有啥意见?

Sysctl Timestamp对速度的影响

May 12, 2015 - 1 minute read - Comments

不知道我是不是写过了。 sysctl中有一个内核设定: net.ipv4.tcp_timestamps = 1 这个值默认被设定为1,但是当这个设定被设定为0时,会导致tcp序列号高速绕回,从而导致传输速度上限。 tcp的最大报文生存时间(MSL)默认值为60s(这也是为何TIME_WAIT默认120s的原因)。而tcp序列号只有32位,未来区域只有2\^31。 **31 * 8 / 60.0 / 1024 / 1024 = 273Mbps 因此当关闭timestamp时,最大传输速率不超过273Mbps。 在公司内部曾出现过这个现象(由于某个理由,错误的关闭timestamp),在自建系统上的测试也验证了这点。 使用iperf对性能进行测试,最大速度为266Mbps。 但请注意,被设定后,需要长达10分钟以上的时间才会发生效果。因此需要在设定后半小时后,去用iperf检验设定是否生效。

电池标注不好,你上不了飞机

May 5, 2015 - 1 minute read - Comments

问个问题。谁知道锂电池上飞机的标准。 我在这个页面找到了解释。这是首都机场的主页,还是比较可信的。 单块电池能量应小于100Wh。100-160Wh的电池需要航空公司批准,160Wh以上的不得上飞机(其实可以按照危险物品托运)。 在飞机上的锂离子电池,应当随身携带,不应当托运。做好绝缘隔离保护,不要在飞行过程中充电。 电池总量应小于160Wh(关于这点我不确定,规定相当含糊,解读也可能完全不同)。 OK,上面的事情很多人可能都知道。所以呢?这篇文章重点在哪里? 按照普通锂电池放电电压3.7V计算,100Wh的锂电池大约合27000mAh。目前主流的两万毫安时电池还不足以达到这个标准,但是看起来很快了。最大能带上飞机的电池规格,应该是25000mAh这个级别。 按照这篇注解。如果你的锂电池没有标明能量,也没有标明放电电压,只有一个电池容量。是不能上飞机的。哪怕只有1000mAh,没有标注放电电压的电池,从标准执行可能性上就会被没收。 2也许出乎很多人意料外。1000mAh的电池,要满足100Wh标准,其放电电压需要高达100V。目前好像没有任何一种材料的放电电压能达到这么高(变压转换除外)。但是在执行上,硬生生就成了二等公民。 电池的要点并不在2W mAh,而是标注。因此买电池的时候,请注意电池外壳上是否带有清晰的容量标注。 当然,很多机场是压根不执行这么严密的限定的。如果你对这点很有信心,那不妨当我没说。但是这次在太原武宿机场,就正好碰到了这待遇。 笔记本电池电量大的多,更容易碰触到100Wh的限制(例如我的笔记本,三芯电池60Wh,六芯多数就要超标了)。这种情况下,万一不让上飞机很麻烦。考虑到这点,如果你要新买笔记本的话,建议你买一个电池能量100Wh以下的。

python代码写给你看 [广告]

Apr 22, 2015 - 1 minute read - Comments

最近有个朋友问我有没有意向写点和python有关的东西。我说没啥想法。要入门,看dive into python足矣。要学最准确的用法,当然是看python manual。两者都有很不错的中译本了,我还有什么可写的呢。朋友说看了这俩可不代表会写程序啊。我说要真的学会,你只有亲自来看我是怎么写的了。朋友说正好,我们这里就是录电子课程的。。。 所以我就录了这份python代码写给你看。其实录的很粗疏,并不适合纯粹的初学者。因为里面并没有“讲解”python是什么,print是什么,对象是什么。这些东西基本都是在课程中随口提到的。如果没有看过入门书的人,直接看视频的结果就是看一个点卡一个点。也因此,我只推荐“看完了python入门书”,希望“能够像真正的python程序员一样工作”的人来看。 同时,这份视频在求解的时候经常思路卡在那里。因为我追求“必须让观看者看到我真实的代码过程”,所以里面的大部分问题,并没有提前准备过程。我觉得,提前把代码写好,然后到录的时候咔咔敲出来,漂亮是漂亮了,还不如让你直接看源码来的方便。这里的很多问题,我都是当场推论如何解决的。有些问题甚至上来思路错了。但是我觉得这些都不重要。我觉得看到如何使用各种手段去发现,改正错误,比看到正确的代码更有用。 录到最后。我和朋友说,我觉得不能再录下去了。整个视频里提供的问题已经太凌乱没有体系了,再录下去就变成了“现场用python解决各种奇怪问题的,没有人看的大杂烩集合”了。谁愿意总是看一个胖子程序员在那里唠叨一堆问题他是怎么解决的呢?但是我又不大满意。仅仅这里提供的几个例子,并不能完整的反映一个python程序员日常工作中碰到的各种问题和如何解决。比起上百小时的实际工作来说,录像能提供的时间无疑太短了。 无论如何,我最终决定,还是把现在的工作放在这里,放给大家看。希望能够成为大家在python入门之路上的,一颗微不足道的小石子。也希望将来,我能为这份教程去芜存菁。 请大家批评指正,谢谢。 PS:音量的问题就别吐槽了。我们设法改善了几次,最后发现有很多听不清的内容是因为我的“小黄鸭调试法”。简单来说就是没思路的时候就开始自言自语,描述一个个部分的用途,试图发现里面的问题。结果这些自言自语变成了背景里的念经。。。 也许下会我会专门录个“shell读kernel”当睡前读物录音。因为那会更加的颠三倒四语无伦次。。。

ppa的使用

Apr 21, 2015 - 1 minute read - Comments

最近用ppa做了backport,这里记录一下用法。 编译简述 ppa的大概工作原理,和mentors非常类似。 包一个deb包,然后build这个包,生成dsc,deb,build和changes。 上传这些文件,然后ppa丢弃所有deb(是的,ppa不接受编译好的包,因为可能在编译过程中被做手脚),从源码编译所有文件。 ppa生成了一堆deb文件,并丢到一个特别的目录下。 ppa为这堆deb文件做签署。 最终用户将这个目录添加到apt源中,就可以安装这些包了。 这里有几个细节: 服务器怎么知道是你上传的包? 答案是在打包时进行签署,所以dput是不验证身份的。也因此,你需要将自己的gpg key上传到服务器。 既然不需要deb,如何构建一个没有deb的编译? 答案是debuild -S。当然,这也可能有变化。如果是建立一个已经存在的包,是-sd,否则是sa。后面还可以用-k\来指定 最终用户如何构建信任? 答案是由ppa编译,由ppa签署。用户并不导入维护者的任何key。但是如果用户不信任维护者,那么维护者可以在包内夹杂任何恶意代码。因此ppa只解决安全传递和构建,而不解决维护者信任问题。 申请ppa 不废话,自己去launchpad申请。这个是要ubuntu one帐号的,然后openid认证。不过不算太麻烦。 添加key 首先需要生成gpgkey,这里不解释如何生成key pair。 然后需要将key pair上传到ubuntu key server。我不知道其他key server最终会不会同步,但是即使会,同步时间也是长的那啥。 gpg --keyserver keyserver.ubuntu.com -send <keyid> 这样就行了。 设定dput 在这个页面有解释。在ubuntu 9.10以上版本,可以直接dput ppa:userid/ppa <source.changes>来上传。如果是更老版本(或者像我一样用debian),可以设定~/.dput.cf来工作(刚刚的页面下面有样例,照着改就行)。 添加ppa 使用add-apt-repository ppa:userid/ppa就行了。本质上,他做了两件事。 在/etc/apt/sources.list.d/下面生成一个文件,将你的repository添加到系统中。 将ppa的sign key导入到系统中,并添加信任。

EFI和GPT的研究

Mar 24, 2015 - 1 minute read - Comments

EFI和GPT的关系 关于EFI和GPT的解释我就不说了,相信来看我blog的人应该能自己搜到。 关于两者的关系,我简要点说吧。如果你需要用EFI引导,你就应该用GPT分区。如果你需要用GPT分区,你就应该用EFI引导。反之交叉组合,不一定会失败,但是折腾和兼容性不保证是必然的。从这两年的经验上看,越来越多的系统开始支持EFI+GPT模式的组合。所以大家可以提前演练一下EFI+GPT模式引导。 GPT和MBR分区互换 在windows下可以用磁盘管理器直接换,在linux下可以用parted或者gdisk来做。当然,如果你有图形界面,可以上gparted这个神器。非常好用。 linux下用parted更换分区表的方法[1]: # parted /dev/sdd GNU Parted 3.1 Using /dev/sdd Welcome to GNU Parted! Type 'help' to view a list of commands. (parted) mklabel New disk label type? gpt (parted) 但是目前我看到的可靠转换方案,都是在无数据情况下进行分区表互换。带数据转换有很多前置条件,而且肯定有风险。所以建议初始化硬盘的时候搞,不然后面可能代价很高。 GPT分区的划分要求 GPT有很多优势,例如没有主分区和扩展分区的区别,硬盘大小可以超过2T,分区可以打很多flags,等等。但是使用GPT也不是说全无要求。基础来说,GPT分区划分有几个建议。 第一个分区划分为EFI分区,并且保留至少20M,推荐100M的大小。 第二个分区划分为GPT分区,保留同上。 其他分区安装使用频繁程度和大小从前向后装。 1是因为EFI推荐为第一个分区。3是因为万一你需要为某个分区扩展大小,你当然希望移动比较小的分区。 EFI引导 终于到了今天的重头戏,EFI引导。EFI+GPT模式下,引导变得异常简单,多重引导的支持也非常容易。大家再也不用去抢MBR了。 在linux下,有个工具叫做efibootmgr,可以man一下看文档。简单来说,这货有三个功能。 efibootmgr -v,查看当前引导表项。 efibootmgr -c,增加引导表项。 efibootmgr -B,删除引导表项。 至于引导表项,具体是什么呢?简单点说,就是某硬盘的某分区,分区ID多少多少,上面的某路径下,有个按照EFI规范写的文件,你给我引导起来。就这么简单。 当然,EFI认识的文件系统格式比较少,我确定的只有FAT一种。但是好在EFI文件引导起来后,后面跑什么文件系统就无关了。所以这也是为什么有EFI分区的原因。这个分区以FAT格式化,然后所有的启动管理器都安装在上面(其实就是放了一个文件)。最后加一个表项就可以引导了。 通常情况下,linux下由grub-efi这个包来提供这个efi文件。当efi文件被引导后,会找到boot分区,并且加载上面的grub主程序和附加模块。最后进入grub主系统。我查看了一下,在我的系统上(debian jessie, 2015-03-24),efi被挂载到/boot/efi,而efi文件在/boot/efi/EFI/debian/grubx64.efi,大小为119808字节。 硬盘安装windows 上面说了这么多EFI有关的东西,下面说说贝壳最近的烦恼。 最近换了一台机器,挺不错的。但是由于机箱小,所以硬盘拆卸困难,基本就当作内置硬盘了。所以把硬盘拆下来安装系统就做不到了。同时又没有光驱。所以安装系统的方案只有U盘一种。 当然,对于linux来说,这都不是事。debian很快就安装完成,整个系统的重初始化没用两个小时。但是windows上就卡壳了。Windows7不支持dd到U盘引导,而微软推出的iso to udisk工具理所当然的只能跑在windows下——可当时所有windows实例都挂了正在重装中。 所以我就借了一个USB光驱来装系统,然后发现另一个悲剧的事实。当初为了多引导方便,使用了GPT分区模式。而Windows的安装,居然是EFI引导才能往GPT上装,BIOS引导只能往MBR上装。这个为了防错的愚蠢设计的结果就是,Windows7的原始安装光盘,只要从光驱一引导,就必定只能装到MBR上。。。 当然,后面介绍的内容,可以帮助你推理出如何修改安装光盘,来实现EFI下的ISO引导。不过这种事情对当时的我一点帮助都没有。 所以核心问题就是EFI引导了。于是,我开始了上面的研究。而研究完EFI引导,我发现——其实好像连U盘都不用的。因为本质来说,Windows的安装程序也是一个Windows。我只需要分一个FAT的分区,把安装程序丢上去,然后设法添加一项EFI表项,指向正确的EFI加载文件即可。有一份如何制作EFI引导的U盘的文档也支持我这个想法[2]。 所以我做了一个简单的测试,在GPT的尾部分了一个小分区,并格式化为FAT32。在上面展开win7的完整ISO。 然后是关键问题,EFI表项是一个硬盘+分区+路径的组合。硬盘和分区都不是问题,问题是应该指向哪个文件呢?根据我的测试bootmgr.efi和cdboot.efi都是错的,无法完成引导。当然,在文档[2]和文档[3]里,都指明了如何解决这个问题。从一个可引导的win7里面,提取一个bootmgfw.efi文件,改名为bootx64.efi。不过上面说了,我没有一个可用的windows。幸运的是,文档[3]里面提供了一个下载链接,可以让我下载一份。将这份efi丢到分区上,并且添加efi表项后,BIOS引导项中出现了安装器选项。选择后就直接进入windows安装界面,并且可以安装到GPT分区上。 GPT分区的激活 其实我不是很想提到这个事,不过GPT分区安装windows绕不过去的问题就是如何绕过防盗版。 本质上说,目前的软激活,都是通过抢在Windows前启动一个程序,来拦截Windows对SLIC的读取,从而返回一个合法的OEM SLIC。这个加上系统内安装的,和这个合法OEM