引子
幼儿园最近搞个冬季亲子运动会,开始顾念孩子还小就不想去,结果因为园服的问题就妥协了。接着又搞了一个提供名字和照片就能参与的拉票免费得奖的投票活动。于是幼儿园给所有孩子都编了号,然后公开了,各家父母看着孩子的编号去拉票。对这种事情,我兴趣缺缺(不想到处推广自己的娃),但为了消灭零投票,还是去了,关注了某个公众号,然后投了票。这当然是个公众号推广活动,看着好多个孩子在投票第一天得票都高达一两百了,咱还刚上双位数还是罢手吧。随后看着那些孩子的名字,我心中一动,就想针对80后父母给孩子取名喜好的问题分析分析。
取名当然是有时代性的,例如过去有许许多多的建国、建军、国庆的,如今我们这些80后给孩子取名喜欢哪些字和音呢?我就以幼儿园所有 127 个孩子的姓名做个统计分析。为什么不说70后、90后呢,因为按照 1990 年出生的母亲也需要 24 岁之前生娃,而 70 后则需要其母亲在 33 岁之后生娃,才能都赶上今年的幼儿园,这两种情况一般来说都不多见,因此,这些孩子的父母应该绝大部分是 80 后。
数据准备
第一步,原始数据是 Excel 表的截图,为了把姓名提取出来,就安装了ABBYY FineReader,由此得到了编号加姓名(例如“12路人甲”)的字串。
第二步,将字串复制到Word 里,按行回车,每个名字一行。
第三步,将Word 文本复制进 Excel 表中,每个名字一行。接着在Excel 表中进行数据处理,通过“分列”功能将前面的编号和姓氏删除,得到了名字。将名字再进行“分列”,得到了一个个字,将各列单字合并到一列中,共247个字。
第四步,使用“删除重复项”后显示重复行103条。取消“删除重复项”返回,将该列排序,这样相同的字都会相邻排列。下面进行手动计数,计算每个字的个数。进一步,手动将同拼音(不区分声调)进行计数。至此,数据准备完成。