The Return of C 复习C语言

有十年没用C了吧。从Hello World开始复习

习题代码在这里 http://codepad.org/users/baojie

资源:

基本功

链表 Linked List树 Tree11 建树  Create a tree read more

第一周减肥数据

本轮减肥开始于2011-06-12。下面是头6天的数据。纵坐标是相对目标体重的差距。目标减重13磅(12斤),为期至2011-10-12。头6天比较容易,大约下去2磅。

方法是老办法:每天跑步5公里,因为我原来住在Ames的时候,那个湖的周长就是5公里。我们办公室有个印度小伙很能跑,每天5英里(8公里,也即绕Fresh Pond两周),周五和他跑了一次,还可以坚持下来。所以以后改为8公里。

另外就是减少热量摄入,饮食向兔子靠近。不过总的来说,还是很均衡的,而且并不饿。

read more

父亲节礼物:妞妞的脚丫子

我一直认为如下节日是坑爹的商家发明出来骗钱的:情人节、父亲节、母亲节、圣诞节(在非基督教国家)、感恩节(在中国)。别的节我只好从俗,但是父亲节我拒绝承认其有效性。我自己老爸,作为彻底的唯物主义者,当然也不过这个节。

不过妞的幼儿园借妞的名义送了我一个脚丫子,说是父亲节礼物,我就笑纳了。

语义网的红旗能打多久?

1) 语义网的头10年(2001-2011),是成功的10年,也是失败的10年。语义网的后一个10年,要强调实事求是、群众路线和“武装”斗争。

2)语义网的头10年是成功的,因为10年前除了在少数专业领域(比如医学和生物),几乎没有对广大Web用户有价值的数据集的存在。在10年中,各种标准语言,如OWL, SPARQL, RIF, SKOS, RDFa等被制定出来,并出现了数以百计的实现。专门从事语义网相关产业的公司有上百家,而主要的大IT公司和很多传统领域公司都有相关的团队进行语义网的应用或者预研。现在,有很多的开放域数据可供我们使用,例如DBPedia, Freebase, 和几百个Linked Data数据集。这些数据集,在提高某些问题解决方案(比如问答系统)的实践中,被证明是有价值的。数以千计的语义网的研究和技术人员被培养出来并进行各行各业,一些人已进入了决策阶层。

read more

TF-IDF之极简化信息论分析

昨天看到有人说,TF-IDF本质上是Kullback–Leibler divergence。参《如何确定网页和查询的相关性》by 吴军

问了一个搞IR的教授这个说法的出处。他说,似乎很明显,但搞不清楚谁第一个说的。

我试着做一个最简化的推导。这里用的TF-IDF是最简单的一种定义,实际用的,要比这复杂。

问题描述:一个查询q=(w1, w2…),一个文档d=(w1, w2….),其中w是单词,q和d都是bag of words。所有文档的集合是D=(d1, d2, …) 要求对所有文档,针对与q的相关性进行排序。

read more

从XSLT调用PHP

call PHP from XSLT [ XSLTProcessor->registerPHPFunctions() ]

<?php
$xml 
= <<<EOB
<all><user>bob</user></all>
EOB;
$xsl = <<<EOB
<?xml version=”1.0″ encoding=”UTF-8″?>
<xsl:stylesheet version=”2.0″
xmlns:xsl=”http://www.w3.org/1999/XSL/Transform”
xmlns:php=”http://php.net/xsl”>
<xsl:output method=”txt” encoding=”utf-8″ indent=”yes”/>
<xsl:template match=”all”>
<xsl:for-each select=”user”>
<xsl:value-of  select=”php:function(‘ucfirst’,string(.))”/>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
EOB;
$xmldoc DOMDocument::loadXML($xml);
$xsldoc DOMDocument::loadXML($xsl);

read more

schema.org浏览笔记

schema.org是最近三大搜索引擎公司(Google, Yahoo, Microsoft)推出的元数据网站(参2006年三大联合推出了sitemaps.org的模式)。就目前的市场看,G是主,Y和M是陪客。这个东西在语义网界争议很大,在SemTech上听到的词都是step back, embarrassing, bizarre, terrible 等——因为它没有用W3C的标准。所以有人(Michael HausenblasRichard Cyganiak)建了个Schema.RDFS.org,把那些schema转化成RDF。

先说我的屁股:我的屁股不在W3C那边,虽然也不一定在Google这边。

read more

为国际会议建元数据(5)Easychair数据

EasyChair包括PC和Submission的数据。ISWC和RuleML都使用EasyChair管理PC的组成和投稿事宜。

去年在ISWC,基本没有用EasyChair,因为它的数据和最终数据不太一样。ISWC2010的数据,主要是用Excel表输入,用TopBraid Composer转化为RDF,再手工整理的。对RuleML 2011,决定从EasyChair的XML dump转化为RDF。

下面列一些琐碎的细节。

工具(都可以免费试用)

数据结构。有如下数据要转化为RDF

  • pc_member
  • author
  • submission

PC Member数据的XML和RDF比较 (RDF Sample)

read more

微日记 [2004-01 Wiki]

[2004-01-30]
还维持我1996年的看法,

第一,2010年前后的海峡战争
第二,2015-2020左右的社会动荡,共产党公开变成社会民主党,或者代表少数大资本的食利阶层政党。

随着能源危机的发展,中国和美国日益走向对抗(不管中国是什么主义,什么政党)。僧多粥少,不可调和矛盾。

也许唯一的解决矛盾办法,或者说是外化矛盾的办法,是利用外太空资源。

[2004-01-29]
CNNIC第13次互联网调查报告, 2004-01

read more

微日记 [2004-02 Wiki]

[2004-02-15]
伊拉克战争告诉我们,撒谎并不是什么丢脸的事。小布什和我们蚌埠火车站的小流氓一个德性。

[2004-02-10]
上升和壮年期的文明,大体在性的问题上比较开放,而衰落中的文明,则倾向于禁欲。
比如欧洲在罗马时期比较开放,中世纪奉行禁欲主义,到文艺复兴以后则再次开放。
如中国隋唐时期社会风气也很开放,到宋以后越被人欺负,性关系方面就越保守。到近几十年,国家重新振作,就越来越开通了。

read more

看《我的前半生》[2004]

【Net.Weblog.200402.txt】

2004-02-08

看《我的前半生》。比较有趣的部分是讲述罗振玉做投机生意,搞复辟和争当汉奸的行为,别开生面,大开眼界。还有关于王国维是被罗逼死的说法,也比较新鲜。

溥仪没什么阅历,对政治斗争的复杂性没什么警惕,一直被骗,遗老,日本人,共产党,都能把他骗得团团转。特别是书里最后一部分关于被改造的过程,虽然作者自己写得很诚恳,但是读者读起来正可以读出“洗脑”两个字。改造过程中有些做法其实是非常违背人性的,比如家族成员间互相揭发,相互讽刺,正是后来文革那一套做法的雏形。我读的时候联想起《洗澡》,这最后十几年才是溥仪被骗得最恨的一次,但是他自己也不知道。或者他知道,也断不敢写。

read more

微日记 [2011-05-26至05-29 新浪]

[2011-05-29]
#微数据# 2001年(暂没找到更新数据)家庭电力使用:16%空调,13%冰箱,10%取暖,9%热水,9%照明,7%家用电子(电视等),6%烘干机,2.5%洗碗机。最后两样中国家庭一般没有。

[2011-05-29]
#微数据# 在美国的193个最好的大学里,67%的学生来自于收入在前25%的家庭[对应大约8万美元年收入],5%的学生来自于收入在末25%的家庭 。http://t.cn/hD9S9D http://t.cn/hbqFoe

[2011-05-29]

正解。所谓的白领骨子里就是无产阶级。生为无产阶级却有主人翁意识,以前只有国企做得到。现在时代进步了,不光垄断资本会用这个,其他老板也把这招也用得纯熟。所以《致加西亚的信》这么畅销。
转发@刘大鸿 的微博: 加班,我所知道的成功公司,在他们还没有成功,还付不起加班费,甚至付工资都艰难的时候,他们都在玩命干,google如此,百度如此,阿里如此,360更如此,甚至今天他们的核心团队身价不菲仍旧如此。你问问@雷军 现在一天工作几个小时?你问问老周问谁要加班费?"可怕的是比你优秀的人比你更努力。"

read more

SemTech 2011

SemTech转了几天。没有特别系统的想法,一些零散的写在微博上,整理如下。

[2011-06-10]
什么时候仓老师有foaf了,语义网就算是普及了

[2011-06-10]
普通用户那里来的数据,肯定不是通过加语义标签这样的方式。大多数,应该是用工具在不影响用户的正常工作模式的情况下,自动记录、提取的。大多数数据,应该不是从自然语言来。吃饭也是数据,睡觉也是数据。不必纠结这些数据是不是有语义。只要有了结构,再过十年再加语义进来也不晚。

read more