【人工智能】数据挖掘与应用题库(501-600)
1、关于Kettle下面说法不正确的是:
答案:Kettle是用C语言开发的,运行速度快
2、Kettle中的作业和转换是一回事,没什么区别。
答案:错
3、在Kettle中要对两个数据表做连接操作,必须先分别进行排序
答案:对
4、要把一个Excel表格的数据导入到数据库中,可以使用Kettle的转换功能完成。
答案:对
5、要把一个Excel表格的数据导入到数据库中,应该使用Kettle的作业功能完成。
答案:错
6、Kettle可对接包括传统数据库、文件、大数据平台、接口、流数据等数据。
答案:对
7、Kettle中作业项是作业内部的执行单元,每一个作业项用于实现特定的功能,如验证表是否存在,发送邮件等。
答案:对
8、Kettle中转换和作业都可以作为作业项。
答案:对
9、Kettle连接数据库出问题可能是因为缺少驱动包,下载相应的驱动放到Kettle的lib文件夹下面即可。
答案:对
10、在Kettle中Job中的作业项是串行执行的。
答案:对
11、在Kettle中作业文件的扩展名是:
答案:.kjb
12、ETL数据抽取的周期是根据业务的需求制定的,如按小时抽取,或者按天、月、季度、年等抽取。
答案:对
13、在Kettle中转换文件的扩展名是:
答案:.ktr
14、ETL数据加载策略包括时间戳的加载方式、全表对比的加载方式、通过读取日志表进行加载的方式、全表删除后再进行加载的方式。
答案:对
15、ETL在做数据抽取时应该尽量选择源数据系统使用的高频时段。
答案:错
16、Kettle一个转换中,一个步骤可以有多个连接,数据流可以从一个步骤流到多个步骤。
答案:对
17、Kettle一个转换中,一个步骤只能有一个连接,数据流只能从一个步骤流到另一个步骤。
答案:错
18、ETL中数据加载中的时间戳加载方式可以实现数据的递增加载。
答案:对
19、关于ETL中全表对比的加载方式,下列说法错误的是:
答案:全表对比效率最高
20、ETL中通过读取日志表进行加载数据的方式是一种安全可靠的方式,没有风险。
答案:错
21、一个完善的ETL系统必须具有流程步骤控制能力,系统的划分和流程调度的能力,有合理的调度算法,有日志和警告系统,且有较高的可靠性。
答案:对
22、商业的ETL软件一般具有更强大的功能和良好的售后服务。
答案:对
23、查看网页的编码格式为打开网页源代码,找到charset字段。
答案:对
24、XPath选取元素的属性用:
答案:@
25、XPath获取元素的文本信息用:
答案:/text()
26、XPath在使用前需要先安装lxml。
答案:对
27、xPath定位没有具体属性的标签,在标签后加序号获取,例如span[2],表示获取第2个span标签。
答案:对
28、关于正则表达式函数描述错误的是:
答案:match与search作用相同,可以替换使用
29、正则表达式,关于*和.在匹配次数方面的描述错误的是:
答案:.表示匹配任意字符
30、关于正则表达式的贪婪模式和非贪婪模式以下描述正确的是:
答案:贪婪模式表示尽可能多的匹配,匹配模式:(.*),非贪婪模式表示尽可能少的匹配,匹配模式:(.*?)
31、python正则表达式的模式修饰符I表示匹配时,忽略大小写。
答案:对
32、python正则表达式的模式修饰符M表示匹配时,让.匹配换行符。
答案:错
33、python正则表达式的模式修饰符S表示匹配时,表示多行匹配。
答案:错
34、python中正则表达式,匹配十进制数字为:
答案:\d
35、python中正则表达式,表示数字恰好出现4次,如何表示?
答案:\d{4}
36、python中正则表达式中,|表示模式选择符,可以用于匹配两种匹配模式。
答案:对
37、python中正则表达式,能够匹配8-15位的QQ号码的是?
答案:\d{8,15}
38、python中正则表达式,[pyh]表示?
答案:匹配p、y或h这三个字符
39、python中正则表达式,匹配非空白字符的模式为[^\s]
答案:对
40、python中正则表达式,非获取匹配用?
答案:(?:.com)
41、以下描述是否正确,UA是User-Agent的缩写,表示用户代理,一个特殊字符串头,使得服务器能够识别客户使用的浏览器及版本。
答案:对
42、Selenium安装好之后,就可以直接使用了。
答案:错
43、使用Selenium之前,需要先声明浏览器对象。
答案:对
44、Selenium元素查找,表示按照名称查找的是:
答案:find_element_by_name
45、Selenium中,获取元素标签名为:
答案:tag_name
46、selenium中元素交互操作,表示输入回车代替点击搜索按钮的是:
答案:driver.find_element_by_id('kw').send_keys(Keys.ENTER)
47、元素交互操作,表示鼠标单击的是:
答案:click()
48、Scrapy项目中,在items文件中定义要爬取的字段。
答案:对
49、查看Scrapy的版本号,命令为scrapy version –v。
答案:对
50、关于用Python向MySQL数据库插入数据,描述正确的是:
答案:可以一次插入一条记录,也可以一次插入多条记录
51、Python多线程爬虫属于I/O密集型计算,通过线程可以提高效率。
答案:对
52、关于pandas中的Series描述错误的是:
答案:Series默认没有index
53、对于数据框book_info,以下用法有误的是:
答案:book_info[book_info["作者"]='李刚'] #找出作者为李刚的图书
54、dataFrame.to_csv方法用于导出csv文件,导出的路径可以不存在,导出时会自动创建。
答案:错
55、关于merge函数的描述错误的是:
答案:merge函数可以用于任意两个数据框的合并
56、关于concat函数的用法描述正确的是:
答案:concat函数中,参数axis用于指定合并的方式
57、Python中,缺失值的标志是NaN,是not a number的缩写。
答案:对
58、关于Python中填充缺失值的描述错误的是:
答案:fillna方法无法为每一列填充不同的缺失值
59、数据预处理中异常值也称为离群点,其数值明显偏离其余的观测值。对于异常值可以先将其缺失化,再来处理缺失值。
答案:对
60、关于模式字符串描述正确的是:
答案:()表示模式单元,用于指定需要提取的信息
61、BeautifulSoup中获取标签的属性是:
答案:attrs
62、BeautifulSoup的get_text()方法会将HTML文档中的所有标签清除,返回一个只包含文字的字符串,不包括换行符。
答案:错
63、python字符串函数replace用于替换字符串中指定的字符串,有两个常用参数,第一个参数表示被替换的字符串,第二个参数表示用于替换旧字符串的新字符串。
答案:对
64、Selenium元素查找,按照XPath查找为:
答案:find_element_by_xpath
65、Selenium元素查找,find_element_by_css表示按照CSS样式查找元素。
答案:错
66、Selenium获取元素的文本值通过text属性获取。
答案:对
67、Selenium通过以下哪种属性获取元素id
答案:id
68、Selenium元素交互操作,以下表示模拟输入空格键的是:
答案:driver.find_element_by_id('kw').send_keys(Keys.SPACE)
69、Selenium元素交互操作,表示鼠标双击的是?
答案:doubleClick()
70、关于python爬虫requests的post方法描述有误的是:
答案:模拟登陆时,post的地址与登录地址一样
71、关于cookie的描述有误的是:
答案:cookie存储于服务器上
72、关于Scrapy爬虫的items文件描述有误的是:
答案:在爬虫文件中,可以直接使用item对象
73、关于scrapy的pipelines文件描述错误的是:
答案:将爬取到的数据导出到外部文件及保存到数据库,在pipelines文件文件中编写相关代码
74、Scrapy项目中,关于XPath的描述错误的是:
答案:在Scrapy项目中使用XPath与普通爬虫中没有区别
75、在Scrapy项目中,关于正则表达式描述错误的是:
答案:Scrapy中使用正则表达式,不用导入re模块
76、无法成功创建爬虫文件baiduspider的命令是:
答案:scrapy genspider -t baiduspider baidu.com
77、关于用Python向MySQL数据库插入数据,描述有误的是:
答案:插入多条记录用execute方法
78、关于Python的zip函数,描述有误的是:
答案:zip函数的返回结果是一个列表
79、关于Python的map函数描述错误的是:
答案:map函数的返回结果为列表
80、创建多个进程,目的是为了利用CPU的多核,让CPU同时执行多个任务。Python要进行多进程操作,需要用到muiltprocessing库。
答案:对
81、关于Python多线程描述错误的是:
答案:Python的多线程受GIL限制,无法实现多线程。
82、关于pandas中的DataFrame描述有误的是:
答案:创建DataFrame后,无法重新指定index
83、在pandas的DataFrame中,loc方法通过index标签获取某一行的值,iloc方法通过index索引获取某一行的值。
答案:对
84、对于pandas数据框book_info,以下用法有误的是:
答案:book_info.drop( ['评论数']) #删除评论数这一列
85、在pandas数据框book_info中,进行频率统计用book_info['出版社'].value_counts(),默认是降序排列。
答案:对
86、关于pandas中透视表函数pivot_table描述错误的是:
答案:pivot_table函数,每次只能汇总统计一个字段
87、关于Python读取csv文件,以下描述错误的是:
答案:read_table可以读取txt文件,但是不能用于读取csv文件
88、pandas数据框的to_csv方法用于导出csv文件,导出的路径需要提前创建好。
答案:对
89、关于Python读取MySQL数据库,以下说明错误的是:
答案:用Python读取MySQL数据库,查询结果默认为数据框形式
90、pandas数据框的apply函数既可以按列应用,也可以按行应用,默认按列应用。
答案: 对
91、数据预处理中异常值又称为离群点,是指数值明显偏离其余观测值的数据。通过箱线图和模型法(如K-means聚类)均可找出异常值。
答案: 对
92、以下HTTP状态码,表示请求成功的是:
答案:200
93、urllib和urllib3都是Python内置的库,requests是第三方库,需要安装。
答案:对
94、使用XPath之前,需要先安装lxml库,安装命令:pip install lxml。
答案:对
95、以下XPath语句,写法有误的是:
答案:/bookstore/book[1]/title/text
96、关于DataFrame描述有误的是:
答案:DataFrame的列名自动生成,无法设置
97、关于正则表达式,描述错误的是:
答案:正则表达式中,match与search作用相同,可以替换使用
98、关于模式修饰符描述正确的是:
答案:模式修饰符位于re模块,使用时需要导入re模块
99、关于爬取网页图片描述错误的是:
答案:保存图片时,Python爬虫会自动为图片命名
100、用正则表达式将字符串s1='360人已购买'中的非数字去除,以下写法正确的是:
答案:re.sub('\D','',s1)