当前位置: 首页 > news >正文

【人工智能】数据挖掘与应用题库(501-600)

1、关于Kettle下面说法不正确的是:

答案:Kettle是用C语言开发的,运行速度快

2、Kettle中的作业和转换是一回事,没什么区别。

答案:错

3、在Kettle中要对两个数据表做连接操作,必须先分别进行排序

答案:对

4、要把一个Excel表格的数据导入到数据库中,可以使用Kettle的转换功能完成。

答案:对

5、要把一个Excel表格的数据导入到数据库中,应该使用Kettle的作业功能完成。

答案:错

6、Kettle可对接包括传统数据库、文件、大数据平台、接口、流数据等数据。

答案:对

7、Kettle中作业项是作业内部的执行单元,每一个作业项用于实现特定的功能,如验证表是否存在,发送邮件等。

答案:对

8、Kettle中转换和作业都可以作为作业项。

答案:对

9、Kettle连接数据库出问题可能是因为缺少驱动包,下载相应的驱动放到Kettle的lib文件夹下面即可。

答案:对

10、在Kettle中Job中的作业项是串行执行的。

答案:对

11、在Kettle中作业文件的扩展名是:

答案:.kjb

12、ETL数据抽取的周期是根据业务的需求制定的,如按小时抽取,或者按天、月、季度、年等抽取。

答案:对

13、在Kettle中转换文件的扩展名是:

答案:.ktr

14、ETL数据加载策略包括时间戳的加载方式、全表对比的加载方式、通过读取日志表进行加载的方式、全表删除后再进行加载的方式。

答案:对

15、ETL在做数据抽取时应该尽量选择源数据系统使用的高频时段。

答案:错

16、Kettle一个转换中,一个步骤可以有多个连接,数据流可以从一个步骤流到多个步骤。

答案:对

17、Kettle一个转换中,一个步骤只能有一个连接,数据流只能从一个步骤流到另一个步骤。

答案:错

18、ETL中数据加载中的时间戳加载方式可以实现数据的递增加载。

答案:对

19、关于ETL中全表对比的加载方式,下列说法错误的是:

答案:全表对比效率最高

20、ETL中通过读取日志表进行加载数据的方式是一种安全可靠的方式,没有风险。

答案:错

21、一个完善的ETL系统必须具有流程步骤控制能力,系统的划分和流程调度的能力,有合理的调度算法,有日志和警告系统,且有较高的可靠性。

答案:对

22、商业的ETL软件一般具有更强大的功能和良好的售后服务。

答案:对

23、查看网页的编码格式为打开网页源代码,找到charset字段。

答案:对

24、XPath选取元素的属性用:

答案:@

25、XPath获取元素的文本信息用:

答案:/text()

26、XPath在使用前需要先安装lxml。

答案:对

27、xPath定位没有具体属性的标签,在标签后加序号获取,例如span[2],表示获取第2个span标签。

答案:对

28、关于正则表达式函数描述错误的是:

答案:match与search作用相同,可以替换使用

29、正则表达式,关于*和.在匹配次数方面的描述错误的是:

答案:.表示匹配任意字符

30、关于正则表达式的贪婪模式和非贪婪模式以下描述正确的是:

答案:贪婪模式表示尽可能多的匹配,匹配模式:(.*),非贪婪模式表示尽可能少的匹配,匹配模式:(.*?)

31、python正则表达式的模式修饰符I表示匹配时,忽略大小写。

答案:对

32、python正则表达式的模式修饰符M表示匹配时,让.匹配换行符。

答案:错

33、python正则表达式的模式修饰符S表示匹配时,表示多行匹配。

答案:错

34、python中正则表达式,匹配十进制数字为:

答案:\d

35、python中正则表达式,表示数字恰好出现4次,如何表示?

答案:\d{4}

36、python中正则表达式中,|表示模式选择符,可以用于匹配两种匹配模式。

答案:对

37、python中正则表达式,能够匹配8-15位的QQ号码的是?

答案:\d{8,15}

38、python中正则表达式,[pyh]表示?

答案:匹配p、y或h这三个字符

39、python中正则表达式,匹配非空白字符的模式为[^\s]

答案:对

40、python中正则表达式,非获取匹配用?

答案:(?:.com)

41、以下描述是否正确,UA是User-Agent的缩写,表示用户代理,一个特殊字符串头,使得服务器能够识别客户使用的浏览器及版本。

答案:对

42、Selenium安装好之后,就可以直接使用了。

答案:错

43、使用Selenium之前,需要先声明浏览器对象。

答案:对

44、Selenium元素查找,表示按照名称查找的是:

答案:find_element_by_name

45、Selenium中,获取元素标签名为:

答案:tag_name

46、selenium中元素交互操作,表示输入回车代替点击搜索按钮的是:

答案:driver.find_element_by_id('kw').send_keys(Keys.ENTER)

47、元素交互操作,表示鼠标单击的是:

答案:click()

48、Scrapy项目中,在items文件中定义要爬取的字段。

答案:对

49、查看Scrapy的版本号,命令为scrapy version –v。

答案:对

50、关于用Python向MySQL数据库插入数据,描述正确的是:

答案:可以一次插入一条记录,也可以一次插入多条记录

51、Python多线程爬虫属于I/O密集型计算,通过线程可以提高效率。

答案:对 

52、关于pandas中的Series描述错误的是:

答案:Series默认没有index

53、对于数据框book_info,以下用法有误的是:

答案:book_info[book_info["作者"]='李刚'] #找出作者为李刚的图书

54、dataFrame.to_csv方法用于导出csv文件,导出的路径可以不存在,导出时会自动创建。

答案:错

55、关于merge函数的描述错误的是:

答案:merge函数可以用于任意两个数据框的合并

56、关于concat函数的用法描述正确的是:

答案:concat函数中,参数axis用于指定合并的方式

57、Python中,缺失值的标志是NaN,是not a number的缩写。

答案:对

58、关于Python中填充缺失值的描述错误的是:

答案:fillna方法无法为每一列填充不同的缺失值

59、数据预处理中异常值也称为离群点,其数值明显偏离其余的观测值。对于异常值可以先将其缺失化,再来处理缺失值。

答案:对

60、关于模式字符串描述正确的是:

答案:()表示模式单元,用于指定需要提取的信息

61、BeautifulSoup中获取标签的属性是:

答案:attrs

62、BeautifulSoup的get_text()方法会将HTML文档中的所有标签清除,返回一个只包含文字的字符串,不包括换行符。

答案:错

63、python字符串函数replace用于替换字符串中指定的字符串,有两个常用参数,第一个参数表示被替换的字符串,第二个参数表示用于替换旧字符串的新字符串。

答案:对

64、Selenium元素查找,按照XPath查找为:

答案:find_element_by_xpath

65、Selenium元素查找,find_element_by_css表示按照CSS样式查找元素。

答案:错

66、Selenium获取元素的文本值通过text属性获取。

答案:对

67、Selenium通过以下哪种属性获取元素id

答案:id

68、Selenium元素交互操作,以下表示模拟输入空格键的是:

答案:driver.find_element_by_id('kw').send_keys(Keys.SPACE)

69、Selenium元素交互操作,表示鼠标双击的是?

答案:doubleClick()

70、关于python爬虫requests的post方法描述有误的是:

答案:模拟登陆时,post的地址与登录地址一样

71、关于cookie的描述有误的是:

答案:cookie存储于服务器上

72、关于Scrapy爬虫的items文件描述有误的是:

答案:在爬虫文件中,可以直接使用item对象

73、关于scrapy的pipelines文件描述错误的是:

答案:将爬取到的数据导出到外部文件及保存到数据库,在pipelines文件文件中编写相关代码

74、Scrapy项目中,关于XPath的描述错误的是:

答案:在Scrapy项目中使用XPath与普通爬虫中没有区别

75、在Scrapy项目中,关于正则表达式描述错误的是:

答案:Scrapy中使用正则表达式,不用导入re模块

76、无法成功创建爬虫文件baiduspider的命令是:

答案:scrapy genspider -t baiduspider baidu.com

77、关于用Python向MySQL数据库插入数据,描述有误的是:

答案:插入多条记录用execute方法

78、关于Python的zip函数,描述有误的是:

答案:zip函数的返回结果是一个列表

79、关于Python的map函数描述错误的是:

答案:map函数的返回结果为列表

80、创建多个进程,目的是为了利用CPU的多核,让CPU同时执行多个任务。Python要进行多进程操作,需要用到muiltprocessing库。

答案:对

81、关于Python多线程描述错误的是:

答案:Python的多线程受GIL限制,无法实现多线程。

82、关于pandas中的DataFrame描述有误的是:

答案:创建DataFrame后,无法重新指定index

83、在pandas的DataFrame中,loc方法通过index标签获取某一行的值,iloc方法通过index索引获取某一行的值。

答案:对

84、对于pandas数据框book_info,以下用法有误的是:

答案:book_info.drop( ['评论数']) #删除评论数这一列

85、在pandas数据框book_info中,进行频率统计用book_info['出版社'].value_counts(),默认是降序排列。

答案:对

86、关于pandas中透视表函数pivot_table描述错误的是:

答案:pivot_table函数,每次只能汇总统计一个字段

87、关于Python读取csv文件,以下描述错误的是:

答案:read_table可以读取txt文件,但是不能用于读取csv文件

88、pandas数据框的to_csv方法用于导出csv文件,导出的路径需要提前创建好。

答案:对

89、关于Python读取MySQL数据库,以下说明错误的是:

答案:用Python读取MySQL数据库,查询结果默认为数据框形式

90、pandas数据框的apply函数既可以按列应用,也可以按行应用,默认按列应用。

答案: 对

91、数据预处理中异常值又称为离群点,是指数值明显偏离其余观测值的数据。通过箱线图和模型法(如K-means聚类)均可找出异常值。

答案: 对

92、以下HTTP状态码,表示请求成功的是:

答案:200

93、urllib和urllib3都是Python内置的库,requests是第三方库,需要安装。

答案:对

94、使用XPath之前,需要先安装lxml库,安装命令:pip install lxml。

答案:对

95、以下XPath语句,写法有误的是:

答案:/bookstore/book[1]/title/text

96、关于DataFrame描述有误的是:

答案:DataFrame的列名自动生成,无法设置

97、关于正则表达式,描述错误的是:

答案:正则表达式中,match与search作用相同,可以替换使用

98、关于模式修饰符描述正确的是:

答案:模式修饰符位于re模块,使用时需要导入re模块

99、关于爬取网页图片描述错误的是:

答案:保存图片时,Python爬虫会自动为图片命名

100、用正则表达式将字符串s1='360人已购买'中的非数字去除,以下写法正确的是:

答案:re.sub('\D','',s1)


http://www.mrgr.cn/news/93454.html

相关文章:

  • 算法·搜索
  • Spring提供的SPEL表达式
  • 算法之 前缀和
  • vue3 组合式API:插槽
  • C++智能指针`shared_ptr`详解
  • uploadlabs通关思路
  • LeetCode 解题思路 11(Hot 100)
  • docker-compose部署mongodb副本集集群
  • AI绘画软件Stable Diffusion详解教程(7):图生图基础篇(改变图像风格)
  • Oracle SQL优化实战要点解析(11)——索引、相关子查询及NL操作(1)
  • vue基本功
  • Manus AI使用指南(从说到做,知行合一)
  • GCC RISCV 后端 -- GCC Passes 注释
  • Tomcat之 配置https协议即SSL证书
  • Ubuntu 安装docker docker-compose
  • ubuntu 20.04下ZEDmini安装使用
  • 4.2 使用说明:手册写作利器VNote的使用
  • 【AIGC系列】6:HunyuanVideo视频生成模型部署和代码分析
  • nuxt2 打包优化使用“compression-webpack-plugin”插件
  • java中小型公司面试预习资料(一):基础篇