Python 文本挖掘系列文章(一)

Python 是我主要使用的编程语言,因为其容易上手,处理数据简单快捷,有丰富完善的文本分析库。之后的日志将会逐一介绍整个文本挖掘流程中使用到的Python 库及方法,还有我走过的弯路。此处先做一个总结: 数据存储于读取数据:xlrd 中文分词及词性标注:jieba 分句:自己编写,可参见该日志使用 Python 实现中文分句 文本相似度计算:gensim 自然语言处理:nltk 情感分析(词典方法):自己编写词典匹配 情感分类(机器学习方法):nltk + scikit-learn 机器学习:scikit-learn 由于刚学Python 进行编程,程序必然有各种问题,在以后更深入学习之后将会持续修改。现在所使用的都是Python 和这些库最基本的功能,力求完成整个项目,而非最佳和最优。   用Python做文本挖掘的流程(英文) 收集数据 数据集。如果是已经被人做成数据集了,这就省去了很多麻烦事 抓取。这个是 Python …

Continue Reading

用数据说话(二):李嘉诚的商业版图

长江集团旗下业务纷繁复杂,早年以地产业务起家,后将触角延伸至基建、港口、酒店、能源、电信和传媒等诸多领域,其经营范围也早已不限于香港一隅,业务遍及全球50多个国家。与其他很多企业盲目多元化不同的是,长江集团的多元化具有很强的目的性,从业务来看,既有周期性极强的房地产业务,也有现金流稳定的港口、电力等公用事业,这些不同版块互为补充,使得长江集团能够应对各种不同经济周期的冲击;而其遍及全球的业务布局,也在很大程度上消除了过于集中的地域风险。   长江集团旗下拥有众多的子孙公司,不过业务主要通过8家香港上市公司来完成,分别为长江实业(0001,HK)、和记黄埔(0013,HK)、电能实业(0006,HK)、长江基建(1038,HK)、长江生命(0775,HK)、和记电讯(0215,HK)、和记港陆(0715,HK)以及TOM集团(2383,HK),总市值超过8000亿港元,这8家公司在李嘉诚的商业版图中扮演着不同的角色。 &…

Continue Reading

用数据说话(一):解析李嘉诚的资本运作

不久前《别让李嘉诚跑了》一文引起轩然大波,以至李嘉诚本人罕见地发声回应。9月29日,在一份长达三页的声明中,李嘉诚说“言论自由是一把两刃刀,因此一篇似是而非的文章,也可引发热烈讨论。文章的文理扭曲,语调令人不寒而栗,深感遗憾。” 事实胜于雄辩,李嘉诚跑没跑要用数据说话。但李氏商业帝国实在过于庞大,仅凭“电能实业、长江基建于10月4日宣布联合收购葡萄牙风电公司,代价为2.88亿欧元”这样的消息下结论,难免沦落为瞎子摸象。因此,我们有必要先了解一下长和系的架构。 “俄罗斯套娃” 2015年1月9日,长江实业(001.HK)及和记黄埔(013.HK)联合发布公告,将分三步对李嘉诚家族庞大资产进行重组。 重组前,长江实业持有和记黄埔49.97%股权、和记黄埔持有长江基建(1038.HK)75.67%股权、长江基建持有电能实业(006.HK)38.87%……上图中,7家上市公司相互持股,总市值近1.2万亿港元。 长和系诸上市公司很像“俄罗…

Continue Reading

程序员修炼之道

IT 技术的发展日新月异,新技术层出不穷,具有良好的学习能力,能及时获取新知识、随时补充和丰富自己,已成为程序员职业发展的核心竞争力。本文中,作者结合多年的学习经验总结出了提高程序员学习能力的三个要点。 众所周知,现在是一个知识爆炸的时代,知识更新非常快。据测算,一个大学毕业生所学到的知识,在毕业之后 2 年内,有效的不过剩下5%。对于软件行业而言,这种形势更为明显,我们赖以立足的,不在于我们现在掌握了多少知识,而是我们有多强的学习能力。 学习人人都会,但不同的人学习效果却千差万别。一个善于学习的人,首先应该是一个善于读书的人,懂得如何高效地学习,并且拥有良好的心态。唯有如此,才能成为一个卓有成效的学习者,成就卓越的程序人生。 要善于读书 买书是最划算的投资 古人云:“书中自有黄金屋,书中自有颜如玉。”这说明先贤们早认识到,买书是最划算的投资。

Continue Reading

屌丝求职日记(一)

       告别我的学生时代才一个月,但整个人却沧桑了很多年。总想出来闯,总想出来看看,这是刚从校园走出的年轻人的共性,我也是其中一员。倔强地走出家门,只身一人坐上南下的火车,到一个完全陌生的地方去寻找自己的未来。        电视里不都这么演的吗?充满想象力和希望是青春的特点,但当这一切真实的来到你面前的时候,却看不到美,只有苦涩。        一间不足6平米的房间,一个有气无力的小电扇,一张床,一个小桌,这就是浮萍们的标准配置。有时候我也会想,虽然自己家庭不富裕,但是也有个还算舒适的房子,算是比较安逸的生活环境,为什么要跑到举目无亲的地方过这样的蚁族生活?为了梦想,为了将来有出息,这是很多人的回答。 找了几个星期的工作,终于有一家较为满意的公司,遗憾的是和我的专业完全没关系。我算是学跟计算机有关系的,偏向于软件。但招聘单位几乎清一色都是要招2年以上工作经验,一说是应届生立马不要。而剩下的基本上都是做保险和销售的,还有几…

Continue Reading

探索Google App Engine背后的奥秘

本系列文章基于公开资料对Google App Engine的实现机制这个话题进行深度探讨。在切入Google App Engine之前,首先会对Google的核心技术和其整体架构进行分析,以帮助大家之后更好地理解Google App Engine的实现。 本篇将主要介绍Google的十个核心技术,而且可以分为四大类: 分布式基础设施:GFS、Chubby 和 Protocol Buffer。 分布式大规模数据处理:MapReduce 和 Sawzall。 分布式数据库技术:BigTable 和数据库 Sharding。 数据中心优化技术:数据中心高温化、12V电池和服务器整合。   分布式基础设施   GFS

Continue Reading

我希望我在五年前就得到的建议

原文出处: Vinicius Vacanti   译文出处: CSDN-张红月        自从踏入创业这条道路以后,我犯过错,挣扎过,失败过。虽然走了很多弯路,但经过几年的努力奋斗,也小有收获。目前拥有25名员工,在最好的一个月募集了730万美金。        我常常幻想,如果时光倒流,回到5年前,我会给自己哪些建议?如何更好地规划自己?对于这里的每一条建议,我可能不会认真去听,但是这些建议就是我想要的: 自己编程。惨痛的外包经验会让你果断地下此决定。真心希望你意识到这一点的重要性,让自己编码。这是单一的非常重大的一步,将会改变你对函数的体验,下面一切事情都会接着发生。同样,我们可能会意识到外包是使用Perl语言,但请记住,我们不但要学会Perl,还要自学Python/Django或Ruby on Rails。   拒绝宅。一般人都会想,与其浪费一个小时来和创始人一起喝咖啡交流,还不如编码来得更有创造性。而事实上…

Continue Reading

书品荟:《失败的逻辑》

本书作者德尔纳用他自己编制的引人入胜的计算机模拟程序,揭示了我们思维中的这些缺陷。他的例子――有时是开心的,有时是吓人的――和他那“梳脑”思维实验,使我们认识到应该如何处理复杂问题。这些实例使本书成为一件矫正工具,一种明智的规划和决策指南,使商业经理、决策者以及面临由此及彼日常挑战的每一个人的思维技巧更加敏锐。本书将改变我们构思变化的方法本身,使我们对成功之路的判断能力得到提高。         为什么铁路信号系统工作正常时,列车仍然会发生撞车事故?为什么所有操作人员都警觉地坚守着工作岗位,核反应堆依然会发生灾难性的熔化事故?为什么我们制定得甚好的那么多专业和个人计划,会如此频繁地出岔子?         迪特里希·德尔纳,德国最高科学奖获得者,在此考虑为什么——假定具备所有的智能、经验和信息条件——我们却仍然会犯错误,有时甚至引起灾难性的后果。令人惊讶的是,他发现问题的答案不在于疏忽或粗心,而缘于他所谓的“失败的逻辑”:我们思…

Continue Reading

从专制走向共和——宪政,变革的力量

 (特别声明,本文由十一城原创,转载请注明出处. copyright reserved by elevencitys.com)       社会不能永远稳定,也不会一直动荡。 中国有古语,天下大势,合久必分,分久必合。一分一合之间,彰显世事变幻。稳定和变革总是轮流占领社会主流,但他们互有彼此,也互相排斥。 社会的稳定意味着阶层的固化,社会结构,功能的固化,意味着安稳,政权的稳固,社会经济发展的一个良好的外部环境。同时也意味着底层的人难以进入上层社会,阶级之间流动性大大降低,再没有其他外力的作用下,社会两极分化会逐渐拉大。 社会动荡时,经济增长缓慢,人民生活部太安稳,阶层之间流动性大,社会有机会重新洗牌。 这几天,国内几大官方媒体连续发表讨逆檄文,史称倒宪三部曲:《“宪政”本质上是种舆论战武器》、《美国宪政的名不副实》、《在中国搞所谓宪政只能是缘木求鱼》,还有另一篇不相伯仲的千古奇文《马克思主义是普世真理而不是普世价值》。情节既有…

Continue Reading

大学生创业为什么会挂掉?

简单背景: 从2011年7月开始,我有幸得到导师的支持,在离北邮不远的小西天拥有了一块面积130㎡的空间,开始了我的大学生创新创业孵化工作。 接近2年的孵化工作中,我前后孵化过的团队有16个,成立6个月后存活的有7个,成立1年后存活的仅有4个,其中一个被技术收购了、一个没融资但实现了收支平衡、一个苦苦支撑着马上能获得天使了、最好的一个马上就A轮融资了。 12个失败项目和4个相对成功案例,总结出来10个大学生创业教训: 1. 学生创业不要做上下游对接很重的产品 云端科技是一个很有意思的项目,他目标是帮你的钱包瘦身,将所有的优惠卡、会员卡、积分卡都放到一个app上。可是项目最后失败了。原因是:这是资源导向性的项目。他们相当于商家和消费者之间的桥梁,满足消费者的需求这点已经很难做,更何况他们需要大量的商家在你的app上登记、更新。而后者偏偏是需要大量社会资源,大学生往往无法凭借“努力”就能补上的短板。 所以,大学生项目一般只做对接一类…

Continue Reading