阿鬼的博客

如何使用地图数据讲故事

地图的发展史是人类文化扩张的历史,现在,地图也同样是是数据新闻中使用最多的元素之一,它可以承载的信息类型异常丰富,覆盖了带有地理位置信息的点(个体)、线(轨迹)、面(区域)、体(高度或者密度)四方面,甚至更多维度的信息。

这周的可视化分析是一组地图可视化工作,他们用基本相同的地图元素,展示了完全不同的信息。

一、点

http://infosthetics.com/archives/2013/07/watch_dogs_mapping_all_publicly_available_data_of_a_city.html

育碧公司为了开发《看门狗》这款黑客游戏,专门与卡巴斯基进行了合作。在发布之初,他们还设计了一个可视化网站,通过点击某个Twitter、Instagram或者其他类型的图标即可查看来自特定位置的个人用户的姓名与特定推文内容。在这里你可以看到一切在公共环境中所能查找到的公开数据,其目的正是向我们演示获取这些数据有多么轻松。

这是一个以地图上的点作为信息呈现的典型作品。点代表了个体的位置信息、大量样本的聚类信息、位置-个体的关联信息等等。



二、线

http://infosthetics.com/archives/2014/03/hubcab_mapping_all_taxi_trips_in_new_york_2011.html

HubCab捕捉了2011年间1.7亿个独立的出租车轨迹,它展示了伦敦这个城市是在哪儿、在什么时候、如何由出租车联系在一起的,它会帮助你发现出租车的运行模式和人群的出行模式,引导你一步步进行轨迹关联性的探索。

这是一个典型的以线为基础的地图可视化,线可以表示轨迹、方向、趋势、进出港和交通。



三、面

面同样可以表达很多概念,比如区域、环境。在这个基础上辅助以颜色,可以划分出很明显的区域和聚类。

http://infosthetics.com/archives/2013/09/a_map_of_the_age_of_all_buildings_in_the_netherlands.html

比如这个作品绘制了荷兰地区的建筑年龄,包含1800年至今的9866539座建筑年份数据。深红色的建筑历史久远,蓝色的建筑建造时间不长。截图是一个局部,扩大到整个地区之后可以发现荷兰基本将新旧城区分离,很好地保留了历史文化遗迹。


http://andrewxhill.com/cartodb-examples/scroll-story/pluto/index.html#2

这个作品可视化了纽约地区的建筑高度,除了面积它还用了颜色和高度。



四、体

http://infosthetics.com/archives/2013/03/metropolitain_exploring_the_paris_metro_in_3d.html

这是一个法国工作室的作品,Dataveyes绘制了一张3D的巴黎地铁交通图。它把基本的热力图表现成了3D的形式,经度、纬度和高度构成了三维的体空间,更加直观,同样也更加梦幻。

在经度、纬度的基础上,可以加任意的第三维:高度、密度、时间、体量。如果有不错的webGL技术就可以实现很梦幻的地图效果。




可以用一些工具来设计地图

地图可视化工具Mapbox,这是一个比较完善成熟的工具,它开源、矢量并且适配移动端,准确性可以媲美谷歌地图。Mapbox为设计师、前端工程师、后台开发者等不同人群开发了不同的界面,还提供了编辑地图样式的功能。

要使用Mapbox,我们需要一组带有地理坐标信息的数据集,可以大一些,以为内它处理数据的能力也很优秀。

地图配色工具Colorbrewer提供了默认的色彩搭配和自定义色彩搭配,通过在Colorbrewer上测试,可以找到一个易于识别的地图可视化配色。


如何处理到手的原始数据集 | ‘METRICS MONDAY: DATA CLEANING

I spent a few days last week attending the annual meetings of the Agricultural and Applied Economics Association (AAEA) in San Francisco as well as a one-day pre-conference on agricultural value chains in developing countries. At that pre-conference, I happened to be sitting with Ben Wood, who co-manages 3ie’s replication program, and in light of his experience with replication in economics, he suggested I write a post about data cleaning.

Why data cleaning? Because most students will typically have very little experience with that thankless task, which happens because most econometrics classes usually present students with nice, picture-perfect data sets for applied problem sets (and that’s when those classes actually have students estimate stuff instead of just memorizing the properties of various estimators).

Many textbooks now come with a number of data sets that readers can use to apply various techniques and replicate the examples in the book (for example, here are the data sets from Jeff Wooldridge’s textbook), which is great. But as I noted above, the problem with those data sets is that they are “perfect.” That is, no data are missing, no values are the product of an obvious typo, all the data are in one neat file, and so on.

Very often, however, the data you will want to use for a research project is not clean. It will come in several files covering different questionnaire modules across different years. Monetary values will have been recorded in real terms. Some people will have refused to answer some questions; others will have trolled the enumerators with crazy answers. Whoever entered the data will have made typos.

The list of possible issues is almost endless, and each data set has its unique set of data-cleaning, which is why it is very difficult to actually teach students how to clean data. But if there is one thing that you need to remember on the data-cleaning front, it’s this:

Document everything.

Cleaning data will typically involve running a .do file wherein

  1. You merge different data files together. This can range from easy if you only have to match observations with themselves (i.e., individuals’ answers to demographic questions with the same individuals’ answers to financial questions) to very tricky if you have to ascribe several sub-observations (e.g., a household’s individual plots) to one “master” variable (e.g., the household itself), and you might want to check that step several times over to make sure everything is okay, going so far as inspecting a few observations to see if they line up with the actual values recorded in the survey questionnaire.

  2. You tab each variable to see whether there are obvious irregularities: missing values, outliers, censoring, truncation, etc. For cases where you have several sub-observations per unit (say, several country-year observations), you might want to check that the time-invariant values are indeed time-invariant, checking the mean of those variables by country. Here, you might also want to plot your dependent variable against each right-hand side variable, just to get a visual sense of what is going on as well as to detect outliers and leverage points.

  3. You drop some observations because of missing values, outliers, typos, etc.

  4. You transform some variables by taking a log, applying an inverse hyperbolic sine transformation, expressing them in real terms, converting two-week recall into seasonal data, dividing by 1,000 to have estimated coefficients more in line with your other estimated coefficients, and so on.

  5. You generate new variables from those you currently have, whether this means adding variables together (e.g., to calculate household size), creating dummies from continuous variables (e.g., to break up income into income brackets), creating ratios of two variables (e.g, to use firms’ price-earnings ratios as a regressor), etc.

  6. You perform other operations that will lead to a nice, clean data set you can just run a parsimonious estimation .do file on.

So what I suggest–and what I try to do myself–is to write a .do file that begins by loading raw data files (i.e., Excel or ASCII files) in memory, merges and appends them with one another, and which documents every data-cleaning decision via embedded comments (in Stata, those comments are lines that begin with an asterisk) so as to allow others to see what assumptions have been made and when. This is like writing a chemistry lab report which another chemist could use to replicate your work.

Another important rule is to never, ever save over (i.e., replace) a data file. If you replace a data file from which you have dropped something or in which you have transform the data in some irreversible way (say, because you failed to follow the “Document everything” rule and did not document what you did to the data), then that file is gone forever. Thankfully, most people now have way more storage space than they need to (after three years of use, my laptop’s C:\ drive is still 67% empty), and Stata is pretty helpful when it comes to that: Every time you want to save a data file, you have to actually tell Stata to do it, and when you quit Stata, if the data have changed, Stata will ask you whether you want to save before quitting (the answer to that question is almost always “No.”)

Lastly, another thing I did when I first cleaned data was to “replicate” my own data cleaning: When I had received all the files for my dissertation data in 2004, the data were spread across a dozen spreadsheets. I first merged and cleaned them and did about a month’s worth of empirical work with the data. I then decided to re-merge and re-clean everything from scratch just to make sure I had done everything right the first time.

Really, there is no big secret to cleaning data other than “Document everything” and to save everything in different files and in different locations (i.e., your computer, Dropbox, Google Drive), and there is no other way to learn data cleaning than by doing it. But it is something that is so rarely discussed that it is worth having a discussion, however short, of what it involves.

原文地址:http://marcfbellemare.com/wordpress/11215

不同数据新闻组织之间的异同分析


财新网数字说——一部分力量在做可视化新闻工作,将数据量庞大的新闻报道进行整理,可视化在这里是一种探索和引导的工具,引导读者探究事件经过和时间的深入挖掘,当然这种尝试比较少;另一部分力量(应该主要是设计师)在做信息图,用infographic的方式解读新闻数字,这一部分比较通俗易懂也更有观感,但时效性强,内容局限于图表本身,依然是“编辑输出、读者接受”的流程,与传统媒体并无差别。


搜狐数字之道——单纯的infographic信息图,并不涉及到数据,图表中的数字往往是分析加工好的数值来用来支撑报道的准确性,和财新的信息图差不多。


网易数读——做数字图表解读,但与常规的infographic并不完全相同。如果说普遍的infographic是将记者和专家分析好的数字画成图表,数读的infographic 则是在元数据中利用程序或者某些工具挖掘出规律,以挖掘出的规律为支撑做新闻报道。从这一点上说,除了不能交互,它和财新网的可视化新闻很相似。

网易新媒体实验室——富媒体新闻,用音频、视频、H5、手机硬件交互等等富媒体形式来做新闻解读。但新媒体常有常新,追随媒体发展的脚步并不是那么容易。


新华网数据新闻和一些其他数据新闻——做一种可以交互的展示,点击或者拖动或者用某些动作来完成操作,呈现相对应的数据。也就是把传统的信息图做成了可交互的。这应该是目前大部分可视化新闻的常见形式,与富媒体新闻从本质上讲并没有区别。比如红色通缉令http://fms.news.cn/swf/waitaomap/


总结一下(我所知的)国内主流数据新闻的形式有这样几种:

信息图{分析数据趋势的信息图和展示数据成果的信息图}

可视化{引导性的可视化和展示型的可视化}

富媒体{丰富呈现的方式,但具体并不很容易解读和统一}



以上。



平面设计与web应用一个显著的区别恐怕就在于对留白的理解。

对设计师来说,“负形”是一个再熟悉不过的概念,福田繁雄便是一个运用负形的大师,而“马一角,夏半边”则在几百年前就点破了留白的美学。在绘画和平面设计领域,我们从来不吝惜纸面,这传承了古典东方的哲学。

但在web应用中,功能美学出挑于留白美学之上,门户网站、电商网站中我们绝对看不到留白的意义。去年在做网页的色彩使用分析的时候,我写过一段话,“国内互联网设计的水平良莠不齐,甚至‘莠莠不齐’。我们发现基本所有的网站都会占全彩虹的颜色——这在其他的设计产品(比如包装和平面设计)中是绝对不会被允许的,尽管要考虑到互联网与生俱来的技术性质和‘瞬间之美’这种互联网独有的美感形式,但视觉秩序的严重崩坏在其他领域的设计师眼里依然还是无法容忍”。

所以,这么看来Lofter做得倒是很纯粹呢~


《SketchInsight: Natural Data Exploration on Interactive Whiteboards Leveraging Pen and Touch Interaction》,Bongshin Lee。


这篇报告不仅讲了工具的设计还总结了一些通用的NUI设计方法。

不论是扁平化还是拟物化的UI设计都固化了视觉印象,NUI则提供了更宽松的思维流程。就像Lee所说,触控让人们不必操作菜单和按钮,可以获得更好的反馈体验,设计良好的手势让操作更加自然流畅并充满趣味性(Pen  and  touch  gestures  enable  people  to  trigger  specific  system responses without using menus or buttons. Well-designed gestures can  be  natural,  fluid,  and  even  fun.  It  is  tempting  to  design  and support  many  gestures  to  cover  many  features.)。类似的手势功能我们也能在其他工具中见到,比如输入法的手写输入还有iOS的Calculator类应用,它们通过识别手写符号的特征来将草图处理成文字或公式,Calculator还支持画多条线以删除的手势,这些都是NUI手势很好的应用。相信SketchInsight以后会愈来愈完善,更加智能和友好。


看过“贝聿铭的光影传奇”

我喜欢建筑,喜欢园林。央美的建筑系啊,就算三年了依然耿耿于怀呢。

    贝聿铭,那是一直存在于想象中的人,尽管我一直崇拜着他,读过很多他的建筑作品,但是我居然不认识他本人,直到这次看“贝聿铭的光影传奇”。我放假回家那天就看到了这部片子的预告,也从那时起就一直等着,潜意识中拒绝用电脑一睹为快,一直等到今晚。

    九十二岁高龄的老人啊,一直笑着,充满着年轻人都少有的活力,更有着年轻人没有的豁达,那样富有感染力。

    节目结尾时他的一句话我印象非常深:“如果我比现在再年轻25岁,我会在这座建筑盖到一半的时候就说‘这个作品完成了’,而当这座建筑盖完的时候我就已经期待着下一座建筑了,我喜欢在很多地方做建筑。”年轻二十五岁?是六十多岁的退休老大爷么?也许不是呢。

    那位老大爷啊,喜欢了解一个地方的风土人情,喜欢历史、地理、文化,老大爷说,这些都是建筑学,设计的概念果然广的很。融入了历史、地理、文化的设计都是有生命的。我了解到的伟大的设计师最后都会崇拜自然,他们的作品最后也都会从自然中获得生命,那是好神圣的一件事情啊。

    职业,果然是今后会陪伴自己几十年的一种东西。对于贝老,那就像是老夫老妻一样吧,相视两张满是皱纹的老脸,却能读出皱纹中挤满了的温情和美丽,相看两不厌。希望我以后也能那个样子,希望所有做设计的人也都能那个样子。


鬼哥哥的第一篇设计杂谈

前几天逛图书馆的时候突然想起了大一时写过的一段话。我记性太差,但很幸运,我有记日记的习惯。以前在沙河,大家都是在先书架前晃来晃去,然后手里抱的书越来越厚,离开时书包里是沉甸甸的未知。那天是我第一次在本部的图书馆里逛,二楼的老书架还没有收拾走,大几届的学长学姐们整齐齐的排在查询机前,一个挨一个地搜四六级、搜托福雅思、搜考研、搜辅导资料,然后走到书架前拿起书就径直走了,整个过程连续、老练,没有一点多余的动作。那天,我在日记里写下了这段记忆,我在想,以后的我也会这样么:有着明确的目标,对待生活像对待图书馆里的书一样直截了当,向偶然、向与知识不期而遇的喜悦说拜拜?

现在,我终于是当时的我想象中的未来了,果然,大部分时候我也是在查询机前搜好书,直接去取。不过,庆幸我还对得起当时的自己,还对偶然,对与知识的不期而遇还保持着满满的好奇,唯一的变化就是对书籍有了自己的选择。虽然还是不知道自己想要什么,但是至少知道自己不想要什么。

分专业之前,我看的书很杂,动画、平面、插画、天文地理、历史文化甚至物理化学,搭边儿不搭边儿的都会看。大一看的书大多是教程,PS、AI、ID、Flash,再难点就是MAYA了。大学以前没做过设计方面的东西,一旦接触了设计软件自然就是不甘示弱,那时应该是觉得会了软件,那些特别炫的效果自己都能做出来了,自己就是个设计师了。这样学着学着却被人鄙视了,“软件只是个工具,美感才是重要的”,大二的时候,这句话频繁的出现在各种书上、各种讲座、各种展览中还有各种人口中。自己学软件也学得烦了,看书的重心慢慢地就偏向了设计、插画,整天不是泡在图书馆就是和亲爱的们逛各种展览,听各种讲座,平时最常说的就是“又有了新的什么什么展览了,周末去看吧!”。

那种状态一直持续到现在,不过上次看展览应该是一两个月之前的事情了,上一本设计书也在一个月前还了,有客观原因,也有主观的。设计书看多了就发现全世界的平面设计都一样,最开始感觉到的震撼和新鲜,看多了就麻木了。难怪,“平面设计水太浅”这句话也频繁的出现在各种地方。有的时候我会想,设计这种东西,尤其是平面设计,它的存在有意义么。在一个人人都是设计师的时代,设计师究竟算是什么东西。借那些图片丰富的书已经是很久以前的事儿了,我现在迫不及待的想读一些设计的反思,迫不及待的想在书中找到学习设计的理由。最近看了《把草稿钉在墙上》、《设计中的设计》和《欲望的教育》,正在看《平面设计死了吗?》。是啊,平面设计死了么?还是快死了?所有的素材库都在更新,所有的网站都在改版,所有的产品都在做UI、VI,所有的东西都在紧跟着时代的脚步跑起来,跑太快了你就不怕把自己绊个跟头么?企业形象设计,所有的形象都是一个样子你的形象又有什么意义?每件设计都应该有不同的感觉,哪怕是极接近的也会有细微的区别,那区别或许只是“兰亭细黑”和“兰亭纤黑”的区别,也或只是10点的饱和度,也或许只是0.5em的行高。

不知道那种“平面设计死了”的消极感什么时候可以消失,那时候我想读读John Wiley的《Typograph Design:From and Communication,3rd Edition》,还想看Molly E.Holzschlag和JeffCroft的书。想让自己的底蕴厚一点,再厚一点,想做文化和感觉。