The Return of C 复习C语言

2）语义网的头10年是成功的，因为10年前除了在少数专业领域（比如医学和生物），几乎没有对广大Web用户有价值的数据集的存在。在10年中，各种标准语言，如OWL, SPARQL, RIF, SKOS, RDFa等被制定出来，并出现了数以百计的实现。专门从事语义网相关产业的公司有上百家，而主要的大IT公司和很多传统领域公司都有相关的团队进行语义网的应用或者预研。现在，有很多的开放域数据可供我们使用，例如DBPedia, Freebase, 和几百个Linked Data数据集。这些数据集，在提高某些问题解决方案（比如问答系统）的实践中，被证明是有价值的。数以千计的语义网的研究和技术人员被培养出来并进行各行各业，一些人已进入了决策阶层。

TF-IDF之极简化信息论分析

Posted on 2011-06-15 by baojie

昨天看到有人说，TF-IDF本质上是Kullback–Leibler divergence。参《如何确定网页和查询的相关性》by 吴军

问了一个搞IR的教授这个说法的出处。他说，似乎很明显，但搞不清楚谁第一个说的。

我试着做一个最简化的推导。这里用的TF-IDF是最简单的一种定义，实际用的，要比这复杂。

问题描述：一个查询q=(w1, w2…)，一个文档d=(w1, w2….)，其中w是单词，q和d都是bag of words。所有文档的集合是D=(d1, d2, …) 要求对所有文档，针对与q的相关性进行排序。

从XSLT调用PHP

Posted on 2011-06-15 by baojie

call PHP from XSLT [ XSLTProcessor->registerPHPFunctions() ]

<?php
$xml = <<<EOB
<all><user>bob</user></all>
EOB;
$xsl = <<<EOB
<?xml version=”1.0″ encoding=”UTF-8″?>
<xsl:stylesheet version=”2.0″
xmlns:xsl=”http://www.w3.org/1999/XSL/Transform”
xmlns:php=”http://php.net/xsl”>
<xsl:output method=”txt” encoding=”utf-8″ indent=”yes”/>
<xsl:template match=”all”>
<xsl:for-each select=”user”>
<xsl:value-of select=”php:function(‘ucfirst’,string(.))”/>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
EOB;
$xmldoc = DOMDocument::loadXML($xml);
$xsldoc = DOMDocument::loadXML($xsl);

社交网络地图: 2009 vs 2011

Posted on 2011-06-13 by baojie

原文出于Techcrunch: It’s A Facebook World … Other Social Networks Just Live In It (2011-06-13) by Robin Wauters

关于此图的解释，当然屁股决定脑袋。我一贯对Facebook没有什么好感，自然的感觉是象在看蒙古帝国或者第三帝国扩张的地图。中国、俄国和巴西一定要挺住，Big Brother的阴谋绝不能得逞。

schema.org浏览笔记

Posted on 2011-06-13 by baojie

schema.org是最近三大搜索引擎公司（Google, Yahoo, Microsoft）推出的元数据网站(参2006年三大联合推出了sitemaps.org的模式)。就目前的市场看，G是主，Y和M是陪客。这个东西在语义网界争议很大，在SemTech上听到的词都是step back, embarrassing, bizarre, terrible 等——因为它没有用W3C的标准。所以有人(Michael Hausenblas, Richard Cyganiak)建了个Schema.RDFS.org，把那些schema转化成RDF。

先说我的屁股：我的屁股不在W3C那边，虽然也不一定在Google这边。

等我武功练成，就去竞选立法委员

Posted on 2011-06-11 by baojie

这句话，最早是看台湾的政治漫画，画一个小孩练武，这样以后进了议会可以不吃亏。其实这放在日本、韩国、乌克兰等等后进民主国家都适用。妞从小苦练武功，将来从政，未尝无益焉。

三月三日天气新

Posted on 2011-06-11 by baojie

三月三日天气新，长安水边多丽人

为国际会议建元数据(5)Easychair数据

Posted on 2011-06-11 by baojie

EasyChair包括PC和Submission的数据。ISWC和RuleML都使用EasyChair管理PC的组成和投稿事宜。

去年在ISWC，基本没有用EasyChair，因为它的数据和最终数据不太一样。ISWC2010的数据，主要是用Excel表输入，用TopBraid Composer转化为RDF，再手工整理的。对RuleML 2011，决定从EasyChair的XML dump转化为RDF。

下面列一些琐碎的细节。

工具（都可以免费试用）

XML->CSV: 随便找一个XSLT的处理工具。我用了XML Spy
CSV->RDF: 用TopBraid Composer

数据结构。有如下数据要转化为RDF

pc_member
author
submission

PC Member数据的XML和RDF比较 (RDF Sample)

微日记 [2004-01 Wiki]

Posted on 2011-06-11 by baojie

[2004-01-30]
还维持我1996年的看法，

第一，2010年前后的海峡战争
第二，2015－2020左右的社会动荡，共产党公开变成社会民主党，或者代表少数大资本的食利阶层政党。

随着能源危机的发展，中国和美国日益走向对抗（不管中国是什么主义，什么政党）。僧多粥少，不可调和矛盾。

也许唯一的解决矛盾办法，或者说是外化矛盾的办法，是利用外太空资源。

[2004-01-29]
CNNIC第13次互联网调查报告， 2004－01

微日记 [2004-02 Wiki]

Posted on 2011-06-10 by baojie

[2004-02-15]
伊拉克战争告诉我们，撒谎并不是什么丢脸的事。小布什和我们蚌埠火车站的小流氓一个德性。

[2004-02-10]
上升和壮年期的文明，大体在性的问题上比较开放，而衰落中的文明，则倾向于禁欲。
比如欧洲在罗马时期比较开放，中世纪奉行禁欲主义，到文艺复兴以后则再次开放。
如中国隋唐时期社会风气也很开放，到宋以后越被人欺负，性关系方面就越保守。到近几十年，国家重新振作，就越来越开通了。

看《我的前半生》[2004]

Posted on 2011-06-10 by baojie

【Net.Weblog.200402.txt】

2004-02-08

看《我的前半生》。比较有趣的部分是讲述罗振玉做投机生意，搞复辟和争当汉奸的行为，别开生面，大开眼界。还有关于王国维是被罗逼死的说法，也比较新鲜。

溥仪没什么阅历，对政治斗争的复杂性没什么警惕，一直被骗，遗老，日本人，共产党，都能把他骗得团团转。特别是书里最后一部分关于被改造的过程，虽然作者自己写得很诚恳，但是读者读起来正可以读出“洗脑”两个字。改造过程中有些做法其实是非常违背人性的，比如家族成员间互相揭发，相互讽刺，正是后来文革那一套做法的雏形。我读的时候联想起《洗澡》，这最后十几年才是溥仪被骗得最恨的一次，但是他自己也不知道。或者他知道，也断不敢写。

微日记 [2011-05-26至05-29 新浪]

Posted on 2011-06-10 by baojie

[2011-05-29]
#微数据# 2001年（暂没找到更新数据）家庭电力使用：16%空调，13%冰箱，10%取暖，9%热水，9%照明，7%家用电子（电视等），6%烘干机，2.5%洗碗机。最后两样中国家庭一般没有。

[2011-05-29]
#微数据# 在美国的193个最好的大学里，67%的学生来自于收入在前25%的家庭[对应大约8万美元年收入]，5%的学生来自于收入在末25%的家庭。http://t.cn/hD9S9D http://t.cn/hbqFoe

[2011-05-29]

正解。所谓的白领骨子里就是无产阶级。生为无产阶级却有主人翁意识，以前只有国企做得到。现在时代进步了，不光垄断资本会用这个，其他老板也把这招也用得纯熟。所以《致加西亚的信》这么畅销。
转发@刘大鸿的微博: 加班，我所知道的成功公司，在他们还没有成功，还付不起加班费，甚至付工资都艰难的时候，他们都在玩命干，google如此，百度如此，阿里如此，360更如此，甚至今天他们的核心团队身价不菲仍旧如此。你问问@雷军现在一天工作几个小时？你问问老周问谁要加班费？＂可怕的是比你优秀的人比你更努力。＂

SemTech 2011

Posted on 2011-06-10 by baojie

去SemTech转了几天。没有特别系统的想法，一些零散的写在微博上，整理如下。

[2011-06-10]
什么时候仓老师有foaf了，语义网就算是普及了

[2011-06-10]
普通用户那里来的数据，肯定不是通过加语义标签这样的方式。大多数，应该是用工具在不影响用户的正常工作模式的情况下，自动记录、提取的。大多数数据，应该不是从自然语言来。吃饭也是数据，睡觉也是数据。不必纠结这些数据是不是有语义。只要有了结构，再过十年再加语义进来也不晚。

语义噪声

by Jie Bao, Big Knowledge Scientist

Monthly Archives: June 2011

The Return of C 复习C语言

第一周减肥数据

父亲节礼物：妞妞的脚丫子

语义网的红旗能打多久？

TF-IDF之极简化信息论分析

从XSLT调用PHP

社交网络地图: 2009 vs 2011

schema.org浏览笔记

等我武功练成，就去竞选立法委员

三月三日天气新

为国际会议建元数据(5)Easychair数据

微日记 [2004-01 Wiki]

微日记 [2004-02 Wiki]

看《我的前半生》[2004]

微日记 [2011-05-26至05-29 新浪]

SemTech 2011