Python 文本挖掘系列文章(一)

Python 是我主要使用的编程语言,因为其容易上手,处理数据简单快捷,有丰富完善的文本分析库。之后的日志将会逐一介绍整个文本挖掘流程中使用到的Python 库及方法,还有我走过的弯路。此处先做一个总结: 数据存储于读取数据:xlrd 中文分词及词性标注:jieba 分句:自己编写,可参见该日志使用 Python 实现中文分句 文本相似度计算:gensim 自然语言处理:nltk 情感分析(词典方法):自己编写词典匹配 情感分类(机器学习方法):nltk + scikit-learn 机器学习:scikit-learn 由于刚学Python 进行编程,程序必然有各种问题,在以后更深入学习之后将会持续修改。现在所使用的都是Python 和这些库最基本的功能,力求完成整个项目,而非最佳和最优。   用Python做文本挖掘的流程(英文) 收集数据 数据集。如果是已经被人做成数据集了,这就省去了很多麻烦事 抓取。这个是 Python …

Continue Reading

用数据说话(二):李嘉诚的商业版图

长江集团旗下业务纷繁复杂,早年以地产业务起家,后将触角延伸至基建、港口、酒店、能源、电信和传媒等诸多领域,其经营范围也早已不限于香港一隅,业务遍及全球50多个国家。与其他很多企业盲目多元化不同的是,长江集团的多元化具有很强的目的性,从业务来看,既有周期性极强的房地产业务,也有现金流稳定的港口、电力等公用事业,这些不同版块互为补充,使得长江集团能够应对各种不同经济周期的冲击;而其遍及全球的业务布局,也在很大程度上消除了过于集中的地域风险。   长江集团旗下拥有众多的子孙公司,不过业务主要通过8家香港上市公司来完成,分别为长江实业(0001,HK)、和记黄埔(0013,HK)、电能实业(0006,HK)、长江基建(1038,HK)、长江生命(0775,HK)、和记电讯(0215,HK)、和记港陆(0715,HK)以及TOM集团(2383,HK),总市值超过8000亿港元,这8家公司在李嘉诚的商业版图中扮演着不同的角色。 &…

Continue Reading

用数据说话(一):解析李嘉诚的资本运作

不久前《别让李嘉诚跑了》一文引起轩然大波,以至李嘉诚本人罕见地发声回应。9月29日,在一份长达三页的声明中,李嘉诚说“言论自由是一把两刃刀,因此一篇似是而非的文章,也可引发热烈讨论。文章的文理扭曲,语调令人不寒而栗,深感遗憾。” 事实胜于雄辩,李嘉诚跑没跑要用数据说话。但李氏商业帝国实在过于庞大,仅凭“电能实业、长江基建于10月4日宣布联合收购葡萄牙风电公司,代价为2.88亿欧元”这样的消息下结论,难免沦落为瞎子摸象。因此,我们有必要先了解一下长和系的架构。 “俄罗斯套娃” 2015年1月9日,长江实业(001.HK)及和记黄埔(013.HK)联合发布公告,将分三步对李嘉诚家族庞大资产进行重组。 重组前,长江实业持有和记黄埔49.97%股权、和记黄埔持有长江基建(1038.HK)75.67%股权、长江基建持有电能实业(006.HK)38.87%……上图中,7家上市公司相互持股,总市值近1.2万亿港元。 长和系诸上市公司很像“俄罗…

Continue Reading

探索Google App Engine背后的奥秘

本系列文章基于公开资料对Google App Engine的实现机制这个话题进行深度探讨。在切入Google App Engine之前,首先会对Google的核心技术和其整体架构进行分析,以帮助大家之后更好地理解Google App Engine的实现。 本篇将主要介绍Google的十个核心技术,而且可以分为四大类: 分布式基础设施:GFS、Chubby 和 Protocol Buffer。 分布式大规模数据处理:MapReduce 和 Sawzall。 分布式数据库技术:BigTable 和数据库 Sharding。 数据中心优化技术:数据中心高温化、12V电池和服务器整合。   分布式基础设施   GFS

Continue Reading

书品荟:《失败的逻辑》

本书作者德尔纳用他自己编制的引人入胜的计算机模拟程序,揭示了我们思维中的这些缺陷。他的例子――有时是开心的,有时是吓人的――和他那“梳脑”思维实验,使我们认识到应该如何处理复杂问题。这些实例使本书成为一件矫正工具,一种明智的规划和决策指南,使商业经理、决策者以及面临由此及彼日常挑战的每一个人的思维技巧更加敏锐。本书将改变我们构思变化的方法本身,使我们对成功之路的判断能力得到提高。         为什么铁路信号系统工作正常时,列车仍然会发生撞车事故?为什么所有操作人员都警觉地坚守着工作岗位,核反应堆依然会发生灾难性的熔化事故?为什么我们制定得甚好的那么多专业和个人计划,会如此频繁地出岔子?         迪特里希·德尔纳,德国最高科学奖获得者,在此考虑为什么——假定具备所有的智能、经验和信息条件——我们却仍然会犯错误,有时甚至引起灾难性的后果。令人惊讶的是,他发现问题的答案不在于疏忽或粗心,而缘于他所谓的“失败的逻辑”:我们思…

Continue Reading

一别,便是一生

       有些人一直没机会见, 等有机会见了, 却又犹豫了, 相见不如不见。 有些事一别竟是一辈子, 一直没机会做, 等有机会了, 却不想再做了。 有些话埋藏在心中好久, 没机会说, 等有机会说的时候, 却说不出口了。 有些爱一直没机会爱, 等有机会了, 已经不爱了。 有些人是有很多机会相见的, 却总找借口推脱, 想见的时候已经没机会了。 有些事是有很多机会去做的, 却一天一天推迟, 想做的时候却发现没机会了。 有些爱给了你很多机会, 却不在意、不在乎, 想重视的时候已经没机会爱了。 人生有时候,总是很讽刺。 一转身可能就是一世。 然后,你忽然醒悟, 是没有好好珍惜, 或者不敢去面对。 一别,便是一生。                                                              —张爱玲 转博的面试安排在下午一点半,这是一个面试官没睡醒而喜欢在折磨面试实验对象的时候。…

Continue Reading

MOOC的Coursera,一场教育海啸!

小编按:网络时代的到来颠覆了世界的格局,十一城已经发表多篇文章介绍MOOC大规模在线课程计划,相对于分享一些书单视频,办几个高额收费的短期培训班,mooc似乎更值得人们尊重和选择。完善的课程体系,资深教授的倾力配合,工作人员的精心准备,世界各地有志人士的慷慨解囊,都只为一个无私的目的:让每个人都能随时随地接受到优质的教育。      是一场先锋实验,还是一次深刻的教育变革?Coursera所引领的教育海啸已经汹涌而来。       今年春节,在上海虹桥机场,微软亚洲研究院副院长张峥一边等行李一边在用手机看《美国现当代诗歌》课程,这节课讲William Carlos Williams,他是美国20世纪最负盛名的几位诗人之一。视频里是满脸络腮胡子的美国宾夕法尼亚大学Al Filreis教授和几个学生,他们围坐在一张木头圆桌边,Filreis教授就诗的各个部分分别向每个学生提问,学生一一给出自己的见解。张峥的耳朵里听着课堂上这样激烈的…

Continue Reading

可编程的多功能集成处理器

新的处理器将引领下一轮移动通信的创新浪潮。 近日,这款 Coherent Logix公司的主板显示芯片,可以灵活地重新编程,实现不同的处理功能,扫除了目前无线,图像和视频处理之间的障碍。该公司表示,下一代版本将更小,更便宜,更适合手机成。 2012年见证移动通信设备持续增长,但很少有技术上的突破。但在未来几个月内,移动设备的发展,可能由于新的技术引进得到显著提升。 如果你曾经打开智能手机和平板电脑的外壳,你会发现里面是一个混乱的处理器系统。通常有几种处理不同的无线标准:2G,3G,4G LTE,无线网络,蓝牙,GPS,以及未来逐渐普及的NFS通信。最后,还有一些用于图像和视频处理,以及加速度计和陀螺测试仪的处理器。 对这些独立的“岛屿”分别提供空间和供电从根本上是低效的,把它们聚合在一起的技术正不断涌现。 Coherent Logix公司,总部设在德克萨斯州奥斯汀,正在开发一个单独的处理器,可以处理所有的上述功能,并在几毫秒的功…

Continue Reading

我们的2012——十一城年度总结篇

回忆往昔 一年前,十一城的构想在我们的一次谈话中悄然出现。    当代年轻人尤其是大学生,给人一种非常迷茫无助的感觉,虽然他们中不乏各行各业的佼佼者,部分名校的高材生、硕博士,但这再多的荣誉和肯定依然挡不住我们内心的失落感。 为什么会有失落感,在受过十几年的教育后的我们却给不出一个像样的答案,至少试卷和考试给不出这个答案。这种失落感随着我们的成长而逐渐加深,尤其在上大学后,经过大一前几个月的激动后,失落感犹如黑洞般吞噬着我们,而我们自己有感觉到但大多数人仍然浑然不知,从未去想过这个。就像SARS来的时候一样,大多数人以为只是普通流感一样。    大学生跳楼自杀的事件层出不穷,前两天上海松江大学城又有一女生因为考研压力大而自杀。专家和教授们一个劲的呼吁大学生心理健康的问题,但收效甚微。因为这绝不仅仅简简单单是心理问题了。

Continue Reading