Shell's Home

携程本次问题分析

May 29, 2015 - 1 minute read - Comments

携程这次的事情,实在没啥好多说的了。要骂的话,早就骂过了。我们就来说说携程这次事故中,我们能确定的事情吧。 小道消息 首先我要排除一切小道消息,包括数据库被“物理”删除了,前任总监报复,运营妹子和高管好上了什么的。昨天和朋友开玩笑,物理删除要怎么做呢?你要盯着硬盘,直到他羞愧到不能淡定,自己从服务器里裸奔出来,纵身从楼上跳下去。这才叫物理删除。第二天报纸准出新闻——硬盘们,不要着急,等待反弹。。。 至于前任总监报复,运营妹子和高管好上了。我越听越像电视剧,还是国产的。这些没影子的事情就不多说了,我们来说点有用的。 事实 首先,我们要搞清楚一个问题。携程自己说的话,是没用的。 是的,无论是故障时的混乱情况导致说错话,还是出于稳定情绪角度的说辞,都没太大价值。最多用来旁证分析。我们还是要追踪当时发生的,确定无疑的事件,以这个来佐证。 我们可以确定的事情有: 携程的系统挂了近12个小时。 挂掉的是应用层,而不是数据库层。 携程下午到晚上悬赏解决问题。 恢复后,历史数据存在,当然部分出问题时的数据丢失(这是必然)。 14是大家都看的到的。2是因为没有数据库连不上时的各种应用错误提示,干脆就是网页直接失踪。这说明问题不是光缆挖断,也不是数据库(至少不能直接佐证)。能够确认的是应用确实没了。3是来自道哥的消息,我觉得应该比较靠谱(毕竟涉及钱)。 分析 好,综合123,我有个推论。携程在出问题的时候,很快就知道了是应用的问题(至少确定应用有问题)。然后试着恢复,但是无效。原因携程自己都不知道。 这是自然。如果携程不知道应用层有问题,太业余。没试着恢复,太二。恢复了有效,不像。携程知道为什么,那还发布个毛悬赏?综合起来,那就是恢复了没见效,而且携程自己都不知道原因了。 同时这个结论也隐隐的排斥高管报复说,至少携程当时不能确认是高管报复,而是作为通用性技术问题来处理的。如果是高管报复,你找外人来管个毛用啊。再黑自己一遍? 当然,这个推论有个前提。携程的悬赏不是为了转移视线的烟幕弹。不过看当时的情况,我觉得这种可能不大。 那么问题的技术细节呢?不知道。携程自己找到没找到原因?不知道。我们知道点啥?数据库备份没事。 是的,我没法确认当天数据库没事(因为我没有当天订单)。不过看事后没人吐槽,估计是没事的。 事后 携程事后说是程序员错误的删除发布的应用,这个和上文“问题出在应用层”一致。在问题原因上,携程没多大掩饰的空间。但是“程序员误删除”这个说法是真是假就不好说了。实话说,这个说辞显得像是背黑锅,推责任。但无法排除,确实可能是事实的真相。 但是这个说法无法解释的是,为什么恢复时间那么长,而且还开出了悬赏。编译整个系统,然后重新发布确实很慢。但是一来时间不会如此长。二来更关键,程序员非常清楚问题在哪,要花多久。你找个技术专家来弄这个事情也未见得快。而且就算要找,也肯定限制在所用技术系统的编译和发布专家里找,不会满世界的开悬赏。如果真的是重发布时间过长,领导层又挂出了悬赏。这无疑是在瞎指挥。 最后就是“携程在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作”。这里明显漏了一个要点”加强部署和恢复演练和自动化推进“。 一般来说,在系统设计的时候,首先考虑的是“如果不小心被删除了怎么恢复”。而不是“如何防止错误的删除”。就像我和一位同事解释的,你可以将rm替换成别的程序,但是如果对方用的是dd呢?如果是chmod呢?如果下次,操作人员执行的不是删除,而是格式化呢?或者是更改ACL权限错误。这无疑要求限制所有操作人员能做的事情。 银行里就是采取的这种思路。每个运维能做的事都被严格限死,很难越雷池一步。但是同时要注意两点。首先,银行的业务相对固定,运维要干的事非常规范。携程的运维恐怕很难做到如此规范。其次,银行是有严密的恢复机制的,恢复机制(包括演练)也是运维的固定工作之一。 考虑一下。如果没有恢复演练。那么万一因为不可知因素,携程需要再度恢复(好倒霉。。。)的时候。运维有没有删除数据的权限呢?有没有修改权限的权限呢?携程的”杜绝技术人员误删除“的手段,还要不要坚持呢? 多说一句 网络上有个哥们猜测”可能是高管报复“的时候,推测是在编译环境里做手脚。这个和我当时的观点一致(不代表我认同他说的这个事实)——要让多个系统始终编译和发布了都不能工作,最有效的后门就在编译环境里。毕竟很少有代码能够跨越多个系统,但是几乎所有项目都会使用同样的编译环境。

程序的持续更新

May 27, 2015 - 1 minute read - Comments

今天有个朋友来问我sql2000的问题,数据库装好后各种,总之就是不能用。我说我已经很久不用sqlserver了,就算用,也绝对是用2008而不是2000。不过我还是给了一点小意见——重装整个系统再重装sqlserver呢?结果他和我说,就是重装惹的祸。 这是一个很老的业务系统,数据库只能用sql2000。整套系统运行了很久都没有维护了,基本就是硬盘坏了换硬盘,也没有多的烦恼,很轻松。但是最近CPU挂了,连带主板也有问题。这类的老主板+老CPU不好买,所以干脆用新件起系统。但是windows系统更换主板后无法直接识别,所以系统要重装,牵连sql server要重装。装完了远程就始终无法连接,要不然就是能连但是不能写。 我靠还有这种事?当年不是用一样的系统组合,一样的安装盘,一样的维护人员。为啥今天就出问题? 结论是不知道。但是这个事情不能因为不知道就不做,所以问我有啥想法没。 我问他能不能升级,告诉说没戏,应用绑死了。整个系统必须用sql 2000,而操作系统只能是winxp和win2003。好家伙,这三个都是超过维护期限的,连漏洞补丁都没了。那这个没救了。。。 想到帮另一个朋友维护的系统,也有类似烦恼。在老版本的php上写的系统,在新版本的php+mysql组合上就无法执行。所以必须安装老版本的CentOS。而老版本CentOS是有退役期限的——一个系统也不可能常年累月做下去吧。所以未来如何,一样很发愁。类似的事情数不胜数,甚至包括我自己写的某个系统,用了老版本的sqlalchemy导致升级不上去。 有一类系统,需求不经常变更,系统压力很小,使用场景很专一,结果就是代码几乎不需要维护的可以一直用下去。不得不说,这种系统比其他系统是简单多了也幸运多了。但是再耐用的代码,也是有服役期限限制的——一般和整台机器的寿命差不多,也就是7-10年。超过这个期限后,还要运行老系统,就要看负责是不是找的到人维护了。语言可能很少有人用,组件可能不能升级,牵连到系统都是老的,没有维护没有补丁。新设备上能不能装出来,有没有驱动都很难说。要照10年前的情况维护,还不如大量搜购老部件接着维护电脑比较痛快。 银行在上个世纪用COBOL写了大量代码,直到今天还在维护——但是代价也很大。银行不得不自己维持了COBOL的一整套生态系统,以至于我提到COBOL几乎就和银行话上等号。(当然,这也和COBOL本身和适合做这类工作有关) 如果没有银行那么大财力的话,要维护这种小系统,在短期内相当占便宜。但是如果在长期,万一出点问题,能不能搞定就有点存疑了。所以我建议维护这种系统的人,每五年做一次检讨,看看系统是不是重做一下,或者做一下兼容性升级,重写部分代码以便于在新系统上执行。这样也许不需要太大精力,就可以让整个系统顺利的再撑个5年。 无论如何,指望像房子一样,建好后就一直可以使用,不碰到灾害不碰到意外就可以用个几十年。这种事情对于程序来说几乎不可能了。程序更像是汽车,一旦过了20年,要找老部件就非常困难了。合理的选择还是弄个新的吧。

试题设计的原则

May 19, 2015 - 1 minute read - Comments

原则 其实主要就两点。 分辨率足够。 简单。 第一点很容易理解。你的题目必须能准确区分傻逼,普通人,和牛逼,因此最理想的状况是,傻逼考零分,牛逼满分,普通人在中间。所以你的题目应该简单。如果题目难到普通人和傻逼一起做不出,那就没有区分能力了。如果不是正好碰到一个牛人,你的考试只能让你啥都招不到。这会把你自己变成傻逼。 所以,你的题目应该有一半是普通人能够做出来的,而不是道道都是神一样的面试题。之所以你在网上经常看到神一样的面试题,那是因为。 大公司不缺应聘的人,所以他们的“牛人线”比较高。 你能看到的题目,都是最牛逼的。 当然,题目中确实应当有一些有难度的题目,用来区分真正的牛人。这部分人我们要特别料理他们。 复用题库 混合一个题库,每次面试抽取不同题目形成试卷,这是常识了。 主要是防止试题外泄,还有重复出题造成的疲劳。 当然,每个题目需要加不同的属性,用于后面的一些分析。在抽题的时候也需要参考属性,例如上面提到的难度。 经验题还是能力题 我把试题分为两个类型。一类是测试你是否用过某项技术,用多深。另一类则是你的智力如何,学习,沟通,理解能力如何。 可以预期的是,刚毕业的人,经验题得分会低一些。不过在实际生产中,这些人出活的能力一向不差。所以对于刚毕业的学生,可以在经验题得分上宽容一些。 区分领域 在试题设计中,经常需要测试多个领域。例如网络,系统底层,等等。 将多个领域的题目分开标注,有利于你最终评定这个人的技术范畴。例如系统底层出色,但是网络很糟糕,这显然就不适合扔去一个重网络开发的组。 限制总量 这点才是整个试题设计的核心难点。 长时间的笔试是很高成本的。对于被考试者不是什么很好的体验,对于考试者来说,要出题,要判卷。考试期间还要招待人家,进行计时。如同马拉松一样的考试没有任何好处——除非非常必要。 但是正常来说,技术面试应该要问系统原理,算法,网络,编程语言,智力题等等,至少这么五个方面。每个方面一道题区分普通人,一道题区分牛人。这就是10道题。再复合上经验和能力的区分,还有为了对抗偶然而要每个组合多几个题。综合起来可能多达20-30道。这样1小时的笔试时间,每道题上只有区区2-3分钟。这点时间根本不够考核一些深入的问题。 所以如何减少问题的数量,而非增加数量,才是核心难点。 我的想法是增加过程叙述题,让被试人对一些经典过程做描述,并规范他一定要描述到哪些方面。以此来分析他对一些领域的基础。但是这方法有个明显弱点——不好执行不好打分。 关于这方面大家有啥意见?

Sysctl Timestamp对速度的影响

May 12, 2015 - 1 minute read - Comments

不知道我是不是写过了。 sysctl中有一个内核设定: net.ipv4.tcp_timestamps = 1 这个值默认被设定为1,但是当这个设定被设定为0时,会导致tcp序列号高速绕回,从而导致传输速度上限。 tcp的最大报文生存时间(MSL)默认值为60s(这也是为何TIME_WAIT默认120s的原因)。而tcp序列号只有32位,未来区域只有2\^31。 **31 * 8 / 60.0 / 1024 / 1024 = 273Mbps 因此当关闭timestamp时,最大传输速率不超过273Mbps。 在公司内部曾出现过这个现象(由于某个理由,错误的关闭timestamp),在自建系统上的测试也验证了这点。 使用iperf对性能进行测试,最大速度为266Mbps。 但请注意,被设定后,需要长达10分钟以上的时间才会发生效果。因此需要在设定后半小时后,去用iperf检验设定是否生效。

电池标注不好,你上不了飞机

May 5, 2015 - 1 minute read - Comments

问个问题。谁知道锂电池上飞机的标准。 我在这个页面找到了解释。这是首都机场的主页,还是比较可信的。 单块电池能量应小于100Wh。100-160Wh的电池需要航空公司批准,160Wh以上的不得上飞机(其实可以按照危险物品托运)。 在飞机上的锂离子电池,应当随身携带,不应当托运。做好绝缘隔离保护,不要在飞行过程中充电。 电池总量应小于160Wh(关于这点我不确定,规定相当含糊,解读也可能完全不同)。 OK,上面的事情很多人可能都知道。所以呢?这篇文章重点在哪里? 按照普通锂电池放电电压3.7V计算,100Wh的锂电池大约合27000mAh。目前主流的两万毫安时电池还不足以达到这个标准,但是看起来很快了。最大能带上飞机的电池规格,应该是25000mAh这个级别。 按照这篇注解。如果你的锂电池没有标明能量,也没有标明放电电压,只有一个电池容量。是不能上飞机的。哪怕只有1000mAh,没有标注放电电压的电池,从标准执行可能性上就会被没收。 2也许出乎很多人意料外。1000mAh的电池,要满足100Wh标准,其放电电压需要高达100V。目前好像没有任何一种材料的放电电压能达到这么高(变压转换除外)。但是在执行上,硬生生就成了二等公民。 电池的要点并不在2W mAh,而是标注。因此买电池的时候,请注意电池外壳上是否带有清晰的容量标注。 当然,很多机场是压根不执行这么严密的限定的。如果你对这点很有信心,那不妨当我没说。但是这次在太原武宿机场,就正好碰到了这待遇。 笔记本电池电量大的多,更容易碰触到100Wh的限制(例如我的笔记本,三芯电池60Wh,六芯多数就要超标了)。这种情况下,万一不让上飞机很麻烦。考虑到这点,如果你要新买笔记本的话,建议你买一个电池能量100Wh以下的。

python代码写给你看 [广告]

Apr 22, 2015 - 1 minute read - Comments

最近有个朋友问我有没有意向写点和python有关的东西。我说没啥想法。要入门,看dive into python足矣。要学最准确的用法,当然是看python manual。两者都有很不错的中译本了,我还有什么可写的呢。朋友说看了这俩可不代表会写程序啊。我说要真的学会,你只有亲自来看我是怎么写的了。朋友说正好,我们这里就是录电子课程的。。。 所以我就录了这份python代码写给你看。其实录的很粗疏,并不适合纯粹的初学者。因为里面并没有“讲解”python是什么,print是什么,对象是什么。这些东西基本都是在课程中随口提到的。如果没有看过入门书的人,直接看视频的结果就是看一个点卡一个点。也因此,我只推荐“看完了python入门书”,希望“能够像真正的python程序员一样工作”的人来看。 同时,这份视频在求解的时候经常思路卡在那里。因为我追求“必须让观看者看到我真实的代码过程”,所以里面的大部分问题,并没有提前准备过程。我觉得,提前把代码写好,然后到录的时候咔咔敲出来,漂亮是漂亮了,还不如让你直接看源码来的方便。这里的很多问题,我都是当场推论如何解决的。有些问题甚至上来思路错了。但是我觉得这些都不重要。我觉得看到如何使用各种手段去发现,改正错误,比看到正确的代码更有用。 录到最后。我和朋友说,我觉得不能再录下去了。整个视频里提供的问题已经太凌乱没有体系了,再录下去就变成了“现场用python解决各种奇怪问题的,没有人看的大杂烩集合”了。谁愿意总是看一个胖子程序员在那里唠叨一堆问题他是怎么解决的呢?但是我又不大满意。仅仅这里提供的几个例子,并不能完整的反映一个python程序员日常工作中碰到的各种问题和如何解决。比起上百小时的实际工作来说,录像能提供的时间无疑太短了。 无论如何,我最终决定,还是把现在的工作放在这里,放给大家看。希望能够成为大家在python入门之路上的,一颗微不足道的小石子。也希望将来,我能为这份教程去芜存菁。 请大家批评指正,谢谢。 PS:音量的问题就别吐槽了。我们设法改善了几次,最后发现有很多听不清的内容是因为我的“小黄鸭调试法”。简单来说就是没思路的时候就开始自言自语,描述一个个部分的用途,试图发现里面的问题。结果这些自言自语变成了背景里的念经。。。 也许下会我会专门录个“shell读kernel”当睡前读物录音。因为那会更加的颠三倒四语无伦次。。。

ppa的使用

Apr 21, 2015 - 1 minute read - Comments

最近用ppa做了backport,这里记录一下用法。 编译简述 ppa的大概工作原理,和mentors非常类似。 包一个deb包,然后build这个包,生成dsc,deb,build和changes。 上传这些文件,然后ppa丢弃所有deb(是的,ppa不接受编译好的包,因为可能在编译过程中被做手脚),从源码编译所有文件。 ppa生成了一堆deb文件,并丢到一个特别的目录下。 ppa为这堆deb文件做签署。 最终用户将这个目录添加到apt源中,就可以安装这些包了。 这里有几个细节: 服务器怎么知道是你上传的包? 答案是在打包时进行签署,所以dput是不验证身份的。也因此,你需要将自己的gpg key上传到服务器。 既然不需要deb,如何构建一个没有deb的编译? 答案是debuild -S。当然,这也可能有变化。如果是建立一个已经存在的包,是-sd,否则是sa。后面还可以用-k\来指定 最终用户如何构建信任? 答案是由ppa编译,由ppa签署。用户并不导入维护者的任何key。但是如果用户不信任维护者,那么维护者可以在包内夹杂任何恶意代码。因此ppa只解决安全传递和构建,而不解决维护者信任问题。 申请ppa 不废话,自己去launchpad申请。这个是要ubuntu one帐号的,然后openid认证。不过不算太麻烦。 添加key 首先需要生成gpgkey,这里不解释如何生成key pair。 然后需要将key pair上传到ubuntu key server。我不知道其他key server最终会不会同步,但是即使会,同步时间也是长的那啥。 gpg --keyserver keyserver.ubuntu.com -send <keyid> 这样就行了。 设定dput 在这个页面有解释。在ubuntu 9.10以上版本,可以直接dput ppa:userid/ppa <source.changes>来上传。如果是更老版本(或者像我一样用debian),可以设定~/.dput.cf来工作(刚刚的页面下面有样例,照着改就行)。 添加ppa 使用add-apt-repository ppa:userid/ppa就行了。本质上,他做了两件事。 在/etc/apt/sources.list.d/下面生成一个文件,将你的repository添加到系统中。 将ppa的sign key导入到系统中,并添加信任。

EFI和GPT的研究

Mar 24, 2015 - 1 minute read - Comments

EFI和GPT的关系 关于EFI和GPT的解释我就不说了,相信来看我blog的人应该能自己搜到。 关于两者的关系,我简要点说吧。如果你需要用EFI引导,你就应该用GPT分区。如果你需要用GPT分区,你就应该用EFI引导。反之交叉组合,不一定会失败,但是折腾和兼容性不保证是必然的。从这两年的经验上看,越来越多的系统开始支持EFI+GPT模式的组合。所以大家可以提前演练一下EFI+GPT模式引导。 GPT和MBR分区互换 在windows下可以用磁盘管理器直接换,在linux下可以用parted或者gdisk来做。当然,如果你有图形界面,可以上gparted这个神器。非常好用。 linux下用parted更换分区表的方法[1]: # parted /dev/sdd GNU Parted 3.1 Using /dev/sdd Welcome to GNU Parted! Type 'help' to view a list of commands. (parted) mklabel New disk label type? gpt (parted) 但是目前我看到的可靠转换方案,都是在无数据情况下进行分区表互换。带数据转换有很多前置条件,而且肯定有风险。所以建议初始化硬盘的时候搞,不然后面可能代价很高。 GPT分区的划分要求 GPT有很多优势,例如没有主分区和扩展分区的区别,硬盘大小可以超过2T,分区可以打很多flags,等等。但是使用GPT也不是说全无要求。基础来说,GPT分区划分有几个建议。 第一个分区划分为EFI分区,并且保留至少20M,推荐100M的大小。 第二个分区划分为GPT分区,保留同上。 其他分区安装使用频繁程度和大小从前向后装。 1是因为EFI推荐为第一个分区。3是因为万一你需要为某个分区扩展大小,你当然希望移动比较小的分区。 EFI引导 终于到了今天的重头戏,EFI引导。EFI+GPT模式下,引导变得异常简单,多重引导的支持也非常容易。大家再也不用去抢MBR了。 在linux下,有个工具叫做efibootmgr,可以man一下看文档。简单来说,这货有三个功能。 efibootmgr -v,查看当前引导表项。 efibootmgr -c,增加引导表项。 efibootmgr -B,删除引导表项。 至于引导表项,具体是什么呢?简单点说,就是某硬盘的某分区,分区ID多少多少,上面的某路径下,有个按照EFI规范写的文件,你给我引导起来。就这么简单。 当然,EFI认识的文件系统格式比较少,我确定的只有FAT一种。但是好在EFI文件引导起来后,后面跑什么文件系统就无关了。所以这也是为什么有EFI分区的原因。这个分区以FAT格式化,然后所有的启动管理器都安装在上面(其实就是放了一个文件)。最后加一个表项就可以引导了。 通常情况下,linux下由grub-efi这个包来提供这个efi文件。当efi文件被引导后,会找到boot分区,并且加载上面的grub主程序和附加模块。最后进入grub主系统。我查看了一下,在我的系统上(debian jessie, 2015-03-24),efi被挂载到/boot/efi,而efi文件在/boot/efi/EFI/debian/grubx64.efi,大小为119808字节。 硬盘安装windows 上面说了这么多EFI有关的东西,下面说说贝壳最近的烦恼。 最近换了一台机器,挺不错的。但是由于机箱小,所以硬盘拆卸困难,基本就当作内置硬盘了。所以把硬盘拆下来安装系统就做不到了。同时又没有光驱。所以安装系统的方案只有U盘一种。 当然,对于linux来说,这都不是事。debian很快就安装完成,整个系统的重初始化没用两个小时。但是windows上就卡壳了。Windows7不支持dd到U盘引导,而微软推出的iso to udisk工具理所当然的只能跑在windows下——可当时所有windows实例都挂了正在重装中。 所以我就借了一个USB光驱来装系统,然后发现另一个悲剧的事实。当初为了多引导方便,使用了GPT分区模式。而Windows的安装,居然是EFI引导才能往GPT上装,BIOS引导只能往MBR上装。这个为了防错的愚蠢设计的结果就是,Windows7的原始安装光盘,只要从光驱一引导,就必定只能装到MBR上。。。 当然,后面介绍的内容,可以帮助你推理出如何修改安装光盘,来实现EFI下的ISO引导。不过这种事情对当时的我一点帮助都没有。 所以核心问题就是EFI引导了。于是,我开始了上面的研究。而研究完EFI引导,我发现——其实好像连U盘都不用的。因为本质来说,Windows的安装程序也是一个Windows。我只需要分一个FAT的分区,把安装程序丢上去,然后设法添加一项EFI表项,指向正确的EFI加载文件即可。有一份如何制作EFI引导的U盘的文档也支持我这个想法[2]。 所以我做了一个简单的测试,在GPT的尾部分了一个小分区,并格式化为FAT32。在上面展开win7的完整ISO。 然后是关键问题,EFI表项是一个硬盘+分区+路径的组合。硬盘和分区都不是问题,问题是应该指向哪个文件呢?根据我的测试bootmgr.efi和cdboot.efi都是错的,无法完成引导。当然,在文档[2]和文档[3]里,都指明了如何解决这个问题。从一个可引导的win7里面,提取一个bootmgfw.efi文件,改名为bootx64.efi。不过上面说了,我没有一个可用的windows。幸运的是,文档[3]里面提供了一个下载链接,可以让我下载一份。将这份efi丢到分区上,并且添加efi表项后,BIOS引导项中出现了安装器选项。选择后就直接进入windows安装界面,并且可以安装到GPT分区上。 GPT分区的激活 其实我不是很想提到这个事,不过GPT分区安装windows绕不过去的问题就是如何绕过防盗版。 本质上说,目前的软激活,都是通过抢在Windows前启动一个程序,来拦截Windows对SLIC的读取,从而返回一个合法的OEM SLIC。这个加上系统内安装的,和这个合法OEM

FIN-WAIT-1的问题一例

Feb 26, 2015 - 1 minute read - Comments

这是一个早应该知道的事情。但是还是被整了半天。 引子 tcp关闭时有多少个状态? 当当,别数了,应该是6个,不算CLOSED。分别是FIN-WAIT-1/FIN-WAIT-2,CLOSING, TIME_WAIT, CLOSE_WAIT,LAST_ACK。如果不能瞬间想起一个方块来,说明tcp状态不算熟。 问题 今天的故事来自今天BI同事提出的一个问题。在线上,他发现这么一个现象。在一组系统中,客户端全都FIN-WAIT-1了,但是服务器还是ESTAB。 我的第一反应很简单,这明显差了一个FIN包的距离。而且鉴于两者在同一网络中,而且重复出现。建议他首先排查中间的防火墙设备和防火墙设置。 会找上我的问题,当然没这么简单。中间没有任何防火墙或软件防火墙设定。 分析 下一步呢?有点没方向了。抓包分析。发现FIN端向ESTAB端不停的发起ACK,但是看起来和FIN没什么太大关系。 偶然,同事注意到所有出现现象的链接都有写缓冲区数据。这是一个不常见的现象。写缓冲区一般会有点数据,但是应该很快就被消费,而不会长期堆积,更不会长期维持同样的数字。这是写缓冲区满。结合刚刚的ACK,其实本质是对端停止消费数据。 这是一个TCP的边角。当读缓冲区满的时候,tcp协议栈会声明window=0。当读缓冲区恢复的时候,读方会用ack with window来重新宣告可用缓冲区。但是在tcp里,ack是不重传的。所以这个ack会丢失。因此写方有责任定期请求确认读方window,来确定整个过程不会卡死。这就是刚刚看到的不停ACK的现象。 而这里就有个非常重要的可能性——FIN包的处理方式。为此我阅读了源码。源码告诉我们,FIN包被接收到的时候,并不是即时处理的。实际上,在ESTAB状态收到的FIN,正常path下会进入tcp_data_queue。这个函数会将包堆积到队列中,并根据当前seq来处理包。主要包括三种seq,当前包,过去包,未来包。只有在以下两种情况下,fin包才会被处理: 当前收到一个fin包。 当前收到一个包,完成处理后out of order队列中有数据,因而进入tcp_ofo_queue。而队列中有fin包。 而不幸的是,当前包处理流程第一步就是判断tcp_receive_window。如果没空间了,会进入out_of_window过程。后者会快速的触发一个ack返回,然后就把包给丢了。 我猜对了开头,可是没有猜到结局。 结论 通过python的快速复现,验证了这个结论。建立一对连接,其中一个不接收任何数据,而其中一个发送足够长的数据。当读缓冲区满后,再去close,出现一端FIN-WAIT-1,一端ESTAB的现象。 因此,结论如下: 当写缓冲区满之后,收到的fin包会被丢弃,而发送端并不会重发。而只要写缓冲还有剩余空间,哪怕一个字节,都可以正常处理。 内核参数 根据文档,可能有几个内核参数与此有关。 net.ipv4.tcp_max_orphans net.ipv4.tcp_orphan_retries 测试表明,net.ipv4.tcp_max_orphans可以抑制这个现象。当减低这个数值后,再进入FIN-WAIT-1状态的连接会自动消失。ss -natp不能看到连接。有趣的是,如果进程尚未关闭的话,可以在/proc/[pid]/fd下面看到fd仍然存在,而且还可以读出数据。 抓包表明,连接实际是被一个RST干掉的。阅读源码,在tcp_close的最后部分,可以看到tcp_too_many_orphans被调用了。如果超过限制,就会发出reset,并且关闭连接。 而tcp_orphan_retirs,根据我的理解和测试,和这事没有关系。这主要是指这么一种现象:当对端机器poweroff(而不是shutdown)的情况下,你所发出的报文会丢失。因此理所当然的,写者的写缓冲区会很快充满。此时会发起连接探测,以确定对方是不是掉线了。套在close的这个case上,就是一边是FIN-WAIT-1,另一边死不响应。需要通过多次探测来宣告对方死亡。因此,如果对方机器死机导致不响应你的FIN,才是用tcp_orphan_retirs的场合。

p2p vpn的部署方法

Feb 9, 2015 - 1 minute read - Comments

p2p vpn的基本概念 p2p vpn这个概念的提出,是因为openvpn在数据传输上的一个特性——虚拟链路都是从拨入端到服务器的。例如vpn网关在北美,上海电信的两个人要通讯,数据就要从北美绕一圈。这个特性在多节点打通上无疑很扯,于是催生了很多p2p vpn。他们的基本理念是——尽力从端到端,不成再绕。而且为了解决端到端,顺便得解决NAT问题——也就是带有STUN打洞。 tun模式的三层转发表 先说明一点,大部分p2p vpn都是tun模式。这也很正常,tunnel用的么。但是大家在配置openvpn的时候,不知是否注意过iroute这个指令。为什么会有iroute指令的存在? tun模式是三层模式,相信大家都有数。也就是说,报文传递的时候只带有三层地址,openvpn也凭借三层地址来找到要转发给谁。这里和普通的网络就显示出区别了——普通网络使用ARP协议来自管理转发规则,而openvpn则是凭借内部写好的转发表。 例如vpn gateway的虚地址是192.168.100.1,节点1是100.5,节点2是100.10。那么节点2发送报文给节点1时,报文大约长这个样子。 192.168.100.10 -> 192.168.100.5 在普通网络中,第一步会查路由表,确定是eth0(虚拟网络是tun0)。然后在上面广播ARP请求,获得MAC地址。最后填写MAC地址,发送报文。但是在tun虚拟网络中,仔细看你的路由表,是不是整个虚网络都被交给了一个叫做100.4之类的奇怪gateway转发?甚至如果你没有打开client-to-client,整个虚网络只有一台可见,这台还是交给这个gateway转发的。 这是因为你到这个奇怪的IP之间还是走ARP过程,但是这个奇怪的IP收到你的报文后,就可以是纯三层过程了。你可以把这个IP视为本地openvpn的化身。openvpn会把你的报文发送到openvpn gateway,然后openvpn gateway再转发给正确的机器。也就是说,openvpn gateway必须知道某个目标IP需要转给哪个节点,物理地址多少,对吧? 作为纯虚网络,知道节点的IP很容易——毕竟是openvpn gateway管理的地址分配过程。但是作为tunnel和多地址打通,这里就有点困难了。例如节点1还有个网段是192.168.80.0/24,节点2还有个网段是192.168.60.0/24,那么如下一个报文从节点2中出去,你让openvpn gateway怎么办? 192.168.60.15 -> 192.168.80.15 你也许会说,我当然有配节点1的网关转给openvpn的拨入端。问题是,这个动作,openvpn的拨入端尚且不知,何况openvpn gateway?于是我们派生了route/iroute这两个指令。 route/iroute表示这个地址段归属于这个节点所有,区别在于route同时修改路由表,而iroute不修改路由表。配合push,可以由服务器端下发指令修改客户端路由表。 p2p vpn也有类似的问题。甚至,由于没有统一配置端,因此连每个节点的虚IP都不能很容易的得到。在配置中必须注意这点。 n2n n2n的模式比较简单,也比较有局限性。基本分为两个端,supernode和edge。supernode类似于hub,把所有edge拉到一起。edge都是对等的。 supernode: supernode -l port edge: edge -a [address] -c [name] -k [password] -l [supernode:port] -u [userid] -g [groupid] 解释一下。开一个supernode,不用做任何设定。反正supernode也不会持有edge别的信息。edge要设定supernode的ip和端口,然后提交name和password。name和password相同的,就进入同一个虚拟网络。然后自己的虚拟ip是address。最后的userid和groupid必须是数字。主要是因为开tun需要root权限,因此可以在获得完权限后退化成普通用户,以防权限太高。 这里好玩的就是,理论上address可以天南海北,完全不用管路由怎么走。甚至172.16.0.1可以和10.0.0.1通讯(我没实际确认)。因为大家都是看彼此的IP是否经过注册,而不是计算路由表。 但是这里就有个缺点,我看到man文档中只提到address,没提到可以提交一个网段。所以无论我怎么设定,使用三层方案做隧道的时候,n2n是转不过去的。因为他不知道这个网段归哪个节点管。 所以,n2n的p2p模式很便利,但是没法打tunnel(至少我不知道怎么玩)。 tinc tinc和n2n一样,也是一种p2p vpn。不过好处在于,tinc允许你在一个节点上配置多个网络,因此可以打tunnel。 在配置之前,我先约定两个词。“配置名”和“节点名”。一个配置是接入同一个网络的多个节点,还有他们如何拓扑。节点名就是一个节点的名字。所以,和配置有关的有以下两个。 /etc/tinc/nets.boot: 这里写上想自动启用的配置的名字 /etc/tinc/[configname]: 配置的根路径,以下路径全是相对路径。 配置 下面就是某个配置中的一堆文件。注意这些配置都是配置自己节点的属性信息。 tinc.conf: Name = [nodename] Device =