当前位置：首页 > news >正文

【人工智能】数据挖掘与应用题库（501-600）

news 2025/3/11 9:01:28

1、关于Kettle下面说法不正确的是：

答案：Kettle是用C语言开发的，运行速度快

2、Kettle中的作业和转换是一回事，没什么区别。

答案：错

3、在Kettle中要对两个数据表做连接操作，必须先分别进行排序

答案：对

4、要把一个Excel表格的数据导入到数据库中，可以使用Kettle的转换功能完成。

答案：对

5、要把一个Excel表格的数据导入到数据库中，应该使用Kettle的作业功能完成。

答案：错

6、Kettle可对接包括传统数据库、文件、大数据平台、接口、流数据等数据。

答案：对

7、Kettle中作业项是作业内部的执行单元，每一个作业项用于实现特定的功能，如验证表是否存在，发送邮件等。

答案：对

8、Kettle中转换和作业都可以作为作业项。

答案：对

9、Kettle连接数据库出问题可能是因为缺少驱动包，下载相应的驱动放到Kettle的lib文件夹下面即可。

答案：对

10、在Kettle中Job中的作业项是串行执行的。

答案：对

11、在Kettle中作业文件的扩展名是：

答案：.kjb

12、ETL数据抽取的周期是根据业务的需求制定的，如按小时抽取，或者按天、月、季度、年等抽取。

答案：对

13、在Kettle中转换文件的扩展名是：

答案：.ktr

14、ETL数据加载策略包括时间戳的加载方式、全表对比的加载方式、通过读取日志表进行加载的方式、全表删除后再进行加载的方式。

答案：对

15、ETL在做数据抽取时应该尽量选择源数据系统使用的高频时段。

答案：错

16、Kettle一个转换中，一个步骤可以有多个连接，数据流可以从一个步骤流到多个步骤。

答案：对

17、Kettle一个转换中，一个步骤只能有一个连接，数据流只能从一个步骤流到另一个步骤。

答案：错

18、ETL中数据加载中的时间戳加载方式可以实现数据的递增加载。

答案：对

19、关于ETL中全表对比的加载方式，下列说法错误的是：

答案：全表对比效率最高

20、ETL中通过读取日志表进行加载数据的方式是一种安全可靠的方式，没有风险。

答案：错

21、一个完善的ETL系统必须具有流程步骤控制能力，系统的划分和流程调度的能力，有合理的调度算法，有日志和警告系统，且有较高的可靠性。

答案：对

22、商业的ETL软件一般具有更强大的功能和良好的售后服务。

答案：对

23、查看网页的编码格式为打开网页源代码，找到charset字段。

答案：对

24、XPath选取元素的属性用：

答案：@

25、XPath获取元素的文本信息用:

答案：/text()

26、XPath在使用前需要先安装lxml。

答案：对

27、xPath定位没有具体属性的标签，在标签后加序号获取，例如span[2]，表示获取第2个span标签。

答案：对

28、关于正则表达式函数描述错误的是：

答案：match与search作用相同，可以替换使用

29、正则表达式，关于*和.在匹配次数方面的描述错误的是：

答案：.表示匹配任意字符

30、关于正则表达式的贪婪模式和非贪婪模式以下描述正确的是：

答案：贪婪模式表示尽可能多的匹配，匹配模式：(.*)，非贪婪模式表示尽可能少的匹配，匹配模式：(.*?)

31、python正则表达式的模式修饰符I表示匹配时，忽略大小写。

答案：对

32、python正则表达式的模式修饰符M表示匹配时，让.匹配换行符。

答案：错

33、python正则表达式的模式修饰符S表示匹配时，表示多行匹配。

答案：错

34、python中正则表达式，匹配十进制数字为：

答案：\d

35、python中正则表达式，表示数字恰好出现4次，如何表示？

答案：\d{4}

36、python中正则表达式中，|表示模式选择符，可以用于匹配两种匹配模式。

答案：对

37、python中正则表达式，能够匹配8-15位的QQ号码的是？

答案：\d{8,15}

38、python中正则表达式，[pyh]表示？

答案：匹配p、y或h这三个字符

39、python中正则表达式，匹配非空白字符的模式为[^\s]

答案：对

40、python中正则表达式，非获取匹配用？

答案：(?:.com)

41、以下描述是否正确，UA是User-Agent的缩写，表示用户代理，一个特殊字符串头，使得服务器能够识别客户使用的浏览器及版本。

答案：对

42、Selenium安装好之后，就可以直接使用了。

答案：错

43、使用Selenium之前，需要先声明浏览器对象。

答案：对

44、Selenium元素查找，表示按照名称查找的是：

答案：find_element_by_name

45、Selenium中，获取元素标签名为：

答案：tag_name

46、selenium中元素交互操作，表示输入回车代替点击搜索按钮的是：

答案：driver.find_element_by_id('kw').send_keys(Keys.ENTER)

47、元素交互操作，表示鼠标单击的是：

答案：click()

48、Scrapy项目中，在items文件中定义要爬取的字段。

答案：对

49、查看Scrapy的版本号，命令为scrapy version –v。

答案：对

50、关于用Python向MySQL数据库插入数据，描述正确的是：

答案：可以一次插入一条记录，也可以一次插入多条记录

51、Python多线程爬虫属于I/O密集型计算，通过线程可以提高效率。

答案：对

52、关于pandas中的Series描述错误的是：

答案：Series默认没有index

53、对于数据框book_info，以下用法有误的是：

答案：book_info[book_info["作者"]='李刚'] #找出作者为李刚的图书

54、dataFrame.to_csv方法用于导出csv文件，导出的路径可以不存在，导出时会自动创建。

答案：错

55、关于merge函数的描述错误的是：

答案：merge函数可以用于任意两个数据框的合并

56、关于concat函数的用法描述正确的是：

答案：concat函数中，参数axis用于指定合并的方式

57、Python中，缺失值的标志是NaN，是not a number的缩写。

答案：对

58、关于Python中填充缺失值的描述错误的是：

答案：fillna方法无法为每一列填充不同的缺失值

59、数据预处理中异常值也称为离群点，其数值明显偏离其余的观测值。对于异常值可以先将其缺失化，再来处理缺失值。

答案：对

60、关于模式字符串描述正确的是：

答案：()表示模式单元，用于指定需要提取的信息

61、BeautifulSoup中获取标签的属性是：

答案：attrs

62、BeautifulSoup的get_text()方法会将HTML文档中的所有标签清除，返回一个只包含文字的字符串，不包括换行符。

答案：错

63、python字符串函数replace用于替换字符串中指定的字符串，有两个常用参数，第一个参数表示被替换的字符串，第二个参数表示用于替换旧字符串的新字符串。

答案：对

64、Selenium元素查找，按照XPath查找为：

答案：find_element_by_xpath

65、Selenium元素查找,find_element_by_css表示按照CSS样式查找元素。

答案：错

66、Selenium获取元素的文本值通过text属性获取。

答案：对

67、Selenium通过以下哪种属性获取元素id

答案：id

68、Selenium元素交互操作，以下表示模拟输入空格键的是：

答案：driver.find_element_by_id('kw').send_keys(Keys.SPACE)

69、Selenium元素交互操作，表示鼠标双击的是？

答案：doubleClick()

70、关于python爬虫requests的post方法描述有误的是：

答案：模拟登陆时，post的地址与登录地址一样

71、关于cookie的描述有误的是：

答案：cookie存储于服务器上

72、关于Scrapy爬虫的items文件描述有误的是:

答案：在爬虫文件中，可以直接使用item对象

73、关于scrapy的pipelines文件描述错误的是:

答案：将爬取到的数据导出到外部文件及保存到数据库，在pipelines文件文件中编写相关代码

74、Scrapy项目中，关于XPath的描述错误的是：

答案：在Scrapy项目中使用XPath与普通爬虫中没有区别

75、在Scrapy项目中，关于正则表达式描述错误的是:

答案：Scrapy中使用正则表达式，不用导入re模块

76、无法成功创建爬虫文件baiduspider的命令是：

答案：scrapy genspider -t baiduspider baidu.com

77、关于用Python向MySQL数据库插入数据，描述有误的是:

答案：插入多条记录用execute方法

78、关于Python的zip函数，描述有误的是:

答案：zip函数的返回结果是一个列表

79、关于Python的map函数描述错误的是：

答案：map函数的返回结果为列表

80、创建多个进程，目的是为了利用CPU的多核，让CPU同时执行多个任务。Python要进行多进程操作，需要用到muiltprocessing库。

答案：对

81、关于Python多线程描述错误的是：

答案：Python的多线程受GIL限制，无法实现多线程。

82、关于pandas中的DataFrame描述有误的是：

答案：创建DataFrame后，无法重新指定index

83、在pandas的DataFrame中，loc方法通过index标签获取某一行的值，iloc方法通过index索引获取某一行的值。

答案：对

84、对于pandas数据框book_info，以下用法有误的是:

答案：book_info.drop( ['评论数']) #删除评论数这一列

85、在pandas数据框book_info中，进行频率统计用book_info['出版社'].value_counts()，默认是降序排列。

答案：对

86、关于pandas中透视表函数pivot_table描述错误的是:

答案：pivot_table函数，每次只能汇总统计一个字段

87、关于Python读取csv文件，以下描述错误的是:

答案：read_table可以读取txt文件，但是不能用于读取csv文件

88、pandas数据框的to_csv方法用于导出csv文件，导出的路径需要提前创建好。

答案：对

89、关于Python读取MySQL数据库，以下说明错误的是：

答案：用Python读取MySQL数据库，查询结果默认为数据框形式

90、pandas数据框的apply函数既可以按列应用，也可以按行应用，默认按列应用。

答案：对

91、数据预处理中异常值又称为离群点，是指数值明显偏离其余观测值的数据。通过箱线图和模型法（如K-means聚类）均可找出异常值。

答案：对

92、以下HTTP状态码，表示请求成功的是：

答案：200

93、urllib和urllib3都是Python内置的库，requests是第三方库，需要安装。

答案：对

94、使用XPath之前，需要先安装lxml库，安装命令：pip install lxml。

答案：对

95、以下XPath语句，写法有误的是：

答案：/bookstore/book[1]/title/text

96、关于DataFrame描述有误的是：

答案：DataFrame的列名自动生成，无法设置

97、关于正则表达式，描述错误的是：

答案：正则表达式中，match与search作用相同，可以替换使用

98、关于模式修饰符描述正确的是：

答案：模式修饰符位于re模块，使用时需要导入re模块

99、关于爬取网页图片描述错误的是：

答案：保存图片时，Python爬虫会自动为图片命名

100、用正则表达式将字符串s1='360人已购买'中的非数字去除，以下写法正确的是：

答案：re.sub('\D','',s1)

查看全文

http://www.mrgr.cn/news/93454.html

C++智能指针`shared_ptr`详解

uploadlabs通关思路

LeetCode 解题思路 11（Hot 100）

docker-compose部署mongodb副本集集群

AI绘画软件Stable Diffusion详解教程（7）：图生图基础篇（改变图像风格）

Oracle SQL优化实战要点解析（11）——索引、相关子查询及NL操作（1）

vue基本功

Manus AI使用指南（从说到做，知行合一）

GCC RISCV 后端 -- GCC Passes 注释

Tomcat之配置https协议即SSL证书

Ubuntu 安装docker docker-compose

ubuntu 20.04下ZEDmini安装使用

4.2 使用说明：手册写作利器VNote的使用

【AIGC系列】6：HunyuanVideo视频生成模型部署和代码分析

nuxt2 打包优化使用“compression-webpack-plugin”插件

java中小型公司面试预习资料（一）：基础篇

相关文章：