专家欲破婴儿学习语言之谜并非最先叫妈妈

关闭，每天收集大约350吉伯的压缩数据。

　　这11部全方位数字摄像机和14个麦克风隐藏在各个房间的天花板上，包括厨房、餐厅、客厅、游戏室、门口、健身房、三个卧室、走廊和卫生间。摄像机可以捕捉到房里发生的任何可能是潜在的婴儿学习语言的因素，每秒钟可以记录14个画面，任何微小的动作都被记录。不过，由于现有技术的程度限制，诸如眨眼等非常细微的面部表情都还无法被捕捉，这些表情都被认为是学习语言非常重要的线索。

　　14个麦克风组成层级式录音系统，记录这所房子里任何的声音资料。在记录声音的过程中，录音系统会自动地将噪音削弱。14个麦克风可以把所有房间的声音记录，通过14个频道刻录到CD盘中。当房间中没有杂音时，即使是轻声的耳语都不会被漏掉。

　　经过计算，3年的记录工作将记录下33.8万小时的数据，其中包括14.2万小时的视频和19.6万小时的音频。

　　庞大系统共同绘制一幅幼儿经历的感官刺激的完整图画

　　罗伊教授介绍说，数据搜集工作结束后，隐藏在天花板里的数据线将会把这些数据资料传送到麻省理工学院媒体实验室的一个巨大容量的磁盘储存系统中，该系统储存容量达到5千兆。所有的图像都会通过10台串联的电脑进行大规模数据分析，而声音数据将会储存在地下室的一个标本取样器中。

　　据罗伊教授介绍，目前对语言进行数据分析有两个途径。第一个是通过自动语言识别器转录，但是即使是最好的自动语言识别器出错率也很高，很多噪音也可能被作为有用信息转录。因此还有第二种途径是通过人工转录，通过人工识别，是婴儿产生的声音，还是噪音，尽量减小转录过程中的误差。而现今的一些转录设备用于大量的语音转录工作都不是很理想。罗伊教授和他的研究组在这些转录设备的基础上自行设计了一套系统，可以自动识别长时间记录中的语音，通过数学运算，描绘出类似于光谱的声音图像。在有声音活动的区域，该系统会将声音自动记录重放进行转录。根据之前的实验，每一分钟的对话，都需要2.5分钟的转录时间。

　　这些不同的各个系统将共同完成一幅幼儿经历的感官刺激的完整图画，这样就可建立一个可以取代罗伊教授儿子的模型。

专家欲破婴儿学习语言之谜 并非最先叫妈妈

专家欲破婴儿学习语言之谜并非最先叫妈妈