大数据应用基础(山东建筑大学)智慧树知到网课章节测试答案

第一章测试
1.数据计量单位中,T是G的( )倍。
A:1000 B:8 C:16 D:1024
答案:D
2.一般来说,科学实验产生的数据体量较小,质量不高。( )
A:错 B:对
答案:A
3.以下行为正确的是( )。
A:及时删除不明电子邮件的附件 B:使用简单的密码或长时间不修改密码 C:使用国产替换软件 D:使用破解软件,以节约成本
答案:AC
4.一般来说,和PaaS模式的云服务相比,使用SaaS云服务,用户需要自行管理更多的资源。( )
A:对 B:错
答案:B
5.为了快速发展数字经济,可以允许一些平台收集用户的隐私信息。( )
A:错 B:对
答案:A
6.解决数据伦理问题,最根本的是企业或组织坚守伦理底线,践行科技向善的原则。( )
A:错 B:对
答案:B

第二章测试
1.下列调查适宜用调查问卷的是( )
A:对上海市常住人口家庭收入情况进行调查 B:电商平台调查某商品的用户使用感受 C:检测某城市的空气质量 D:对你所在班级的学生最喜欢的体育活动进行调查
答案:AD
2.下列选项中,获取数据的直接来源的方法有( )
A:某大学、科研机构发布的研究数据 B:某企业发布的经营报表数据 C:从《人口普查资料汇编》当中获取的数据 D:实验检测获取数据 E:问卷调查
答案:DE
3.网络爬虫能够爬取互联网上的任何数据。( )
A:对 B:错
答案:B
4.Response类对象的下列属性中,用于表示HTML代码的是( )
A:text B:content C:status_code D:encoding
答案:A
5.运行以下程序,结果是( )
A:False True True B:True False True C:True True True D:True True False
答案:C
6.利用八爪鱼采集器采集数据过程中,如果希望只采集满足条件的部分数据,可以尝试通过判断条件功能来完成。( )
A:对 B:错
答案:A

第三章测试
1.文本文件中的数据的存储结构依赖应用程序,所以文件不适合管理较大规模的数据。( )
A:错 B:对
答案:B
2.数据库管理系统的主要功能包括以下几个方面( )
A:数据操作 B:管理计算机的硬件资源 C:数据定义 D:数据库的建立与维护 E:数据组织、存储和管理
答案:ACDE
3.大数据时代,数据类型繁多,半结构化和非结构化的数据成为主流数据形式,而NoSQL数据库没有固定的表结构,数据约束也比较宽松,更适合海量的非结构化数据存储。( )
A:对 B:错
答案:A
4.NoSQL是大数据时代的主流存储方式,可以全面替代传统的关系数据库。( )
A:错 B:对
答案:A
5.列族数据库的查找速度快、可扩展性强、复杂性低,代表性的软件有HBase、Cassandra等。( )
A:对 B:错
答案:A

第四章测试
1.现实世界中直接采集到的数据大多是不完整、结构不一致、含噪声的数据,无法直接用于数据分析或挖掘。( )
A:错 B:对
答案:B
2.数据预处理的目的( )
A:提高数据质量 B:调整数据格式 C:抽取精准的数据 D:尽可能的简化数据 E:清理“脏”数据
答案:ABCDE
3.数据集成的过程中需要处理的问题有 ( )
A:实体识别 B:冗余与相关性分析。 C:数据冲突和检测 D:其余选项都是
答案:D
4.数据归约指数据降维,是从原有的数据中删除不重要或不相关的属性,或者通过对属性进行重组来减少属性的个数。( )
A:错 B:对
答案:B
5.pandas库中的DataFrame对象的replace方法可以替换指定数据。( )
A:错 B:对
答案:B

第五章测试
1.Matplotlib中的( )模块提供了一系列操作和绘图函数。
A:rcparams B:pyplot C:bar D:plot
答案:B
2.下列参数中调整后显示中文的是( )。
A:font.sans-serif B:lines.linestyle C:axes.unicode_minus D:lines.linewidth
答案:A
3.散点图无法反映特征之间的统计关系。( )
A:对 B:错
答案:B
4.折线图的主要功能是查看因变量y随着自变量x改变的趋势。( )
A:对 B:错
答案:A
5.在seaborn中要移除图形中的轴线,使用的方法是despine方法。( )
A:错 B:对
答案:B

第六章测试
1.下面有关回归分析的描述,不正确的是( )。
A:回归分析的预测过程是利用得到的模型对新样本进行预测 B:回归分析包括学习过程和预测过程 C:回归分析的学习过程是利用有标签的训练数据集学习得到一个模型 D:回归分析属于无监督学习
答案:D
2.关于下面这段代码,描述不正确的是( )。
A:第7行代码用于查看所估计回归方程的判定系数R方 B:第6行代码用于对所建立的回归模型进行参数估计 C:第8行代码用于查看所估计回归方程的回归参数 D:第2行代码建立了一个名为regr的线性回归模型
答案:A
3.下面有关分类的描述,正确的是( )。
A:分类是一种监督学习 B:分类包括学习过程和分类过程 C:分类是一种无监督学习 D:分类问题的因变量是类别变量
答案:ABD
4.利用逻辑回归模型进行类别预测的方法是( )。
A:LinearRegression.predict() B:LogisticRegression.fit() C:LogisticRegression.predict() D:LogisticRegression.score()
答案:C
5.以下关于聚类的描述,正确的是( )
A:聚类的数据集只包含特征变量不包含类别变量 B:聚类属于监督学习 C:聚类的数据集包含特征变量和类别变量 D:决策树方法是一种聚类方法
答案:A
6.在K-means聚类过程中,计算不同K值时的内平方和WWS如下表所示,请问最优K值是( )。K值 WWS值 1 62.8 2 12.3 3 9.4 4 9.3 5 9.2 6 9.1
A:1 B:3 C:4 D:2
答案:B
7.有关K-means聚类命令sklearn.cluster.KMeans(),以下说法不正确的是( )。
A:可通过参数n_clusters指定初始聚类中心位置 B:可通过属性cluster_centers_查看聚类之后的质心坐标 C:用于计算K-means聚类的方法是fit() D:可通过属性labels_查看聚类之后的样本点分类
答案:A
8.关于下面这段代码,描述不正确的是( )。
A:x_train,y_train分别是指训练集的自变量和因变量 B:训练集和测试集的比例为0.25:0.75 C:x_test,y_test分别是指测试集的自变量和因变量 D:sklearn.model_selection.train_test_split()方法可用于将数据集分为训练集和测试集两部分
答案:B
9.有关文本分析的描述,不正确的是( )。
A:去除停用词是指去除文本中包含信息较多、使用频率又很高的词 B:一般而言,进行文本分析的起始步骤是词语分词 C:词性标注是指为词语标注相应词性的过程 D:词干提取可用于英文文本分析
答案:A
10.可用于英文分词的方法是( )。
A:nltk.FreDist() B:stopwords.words() C:nltk.word_tokenize() D:nltk.pos_tag()
答案:C

第七章测试
1.更改一个文件权限的命令是( )。
A:cat B:attrib C:chmod D:chown
答案:C
2.Linux中权限最大的账户是( )。
A:admin B:super C:guest D:root
答案:D
3.Linux的命令由连续的字符组成,命令和参数之间可以没有空格。( )
A:对 B:错
答案:B
4.Linux操作系统的主要特点是( )。
A:免费 B:多用户多任务 C:开源 D:安全
答案:ABCD
5.从目录/home/glxy/app切换到目录/home/glxy/hadoop的相对路径是( )
A:hadoop B:../hadoop C: /home/glxy/hadoop D:./hadoop
答案:B
第八章测试
1.一种典型的数据处理使用模式是:首先使用()工具对原始海量数据进行分析,产生较小规模的数据集,再使用()工具对该数据集进行快速查询,获取最终结果。 
A:批处理、流处理 B:交互式处理、批处理 C:流处理、批处理 D:批处理、交互式处理
答案:D
2.大数据管理平台技术的发展历程为( )。
A:开源阶段 B:初始阶段 C:流处理阶段 D:内存计算阶段
答案:ABCD
3.常用的流数据处理技术有( )。
A:Strom B:Hadoop C:Spark Streaming D:Flink
答案:ACD
4.下述哪些技术不属于开源技术( )。
A:Spark B:Hadoop C:GFS D:Flink
答案:C
5.大数据管理平台技术可以应用到下述哪些领域场景中( )。
A:电信 B:医疗 C:交通 D:互联网
答案:ABCD
第九章测试
1.在HDFS中负责保存文件数据的节点被称为( )。
A:NameNode B:DataNode C:SecondaryNameNode D:NodeManager
答案:B
2.下面与HDFS类似的框架是( )?
A:EXT3 B:FAT32 C:GFS D:NTFS
答案:C
3.下面哪个程序负责 HDFS 数据存储( )。
A:secondaryNameNode B:Datanode C:NameNode D:Jobtracker
答案:B
4.HDFS中的NameNode节点用于存放元数据,数据内容包含( )。
A:客户端硬件配置数据 B:数据块与数据节点的映射表 C:文件与数据块的映射表 D:每个数据块的内容
答案:BC
5.HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行。( )
A:错 B:对
答案:A
第十章测试
1.Spark生态系统支持批处理、交互式处理和流处理。( )
A:对 B:错
答案:A
2.以下哪个组件不属于Spark生态( )。
A:Spark SQL B:YARN C:Spark Streaming D:Spark Core
答案:B
3.Map阶段的主要工作是将多个任务的计算结果进行汇总。( )
A:对 B:错
答案:B
4.Spark的主要特点有( )。
A:涵盖存储和处理组件 B:性能高效 C:与Hadoop无缝集成 D:简单易用
答案:BCD
5.可通过浏览器访问Spark Web UI查看Spark集群状态,默认地址为主节点IP加端口号8080。
A:错 B:对
答案:B