网页内容简易抓取

在浏览器控制台中运行

var a1 = document.querySelectorAll("table#CardSelectTr tr> td:nth-child(2) > a");
var txt='';
for (let i = 0; i < a1.length; i++) {
    txt+=a1[i].firstChild.textContent+"EndTag";
}

其中CSS选择器部分需要自己更换

在控制台输出的结果上 右键复制字符串,在 Notepad 3 或 VSCode 等软件中粘贴,Ctrl+H替换EndTag\n
启用替换功能中的正则表达式,将 特殊字符 替换为 _,特殊字符:

[^0-9.A-Za-z\u4E00-\u9FA5\u309F-\u30FF-_\n]|_{2,}|^_|_$

如换成_替换后可能需要再执行一次替换将重复的_替换成单个_

CSS选择器工具(浏览器扩展):

生成工具 Copy Css Selectorhttps://chrome.google.com/webstore/detail/copy-css-selector/kemkenbgbgodoglfkkejbdcpojnodnkg
校验工具 ChroPathhttps://chrome.google.com/webstore/detail/chropath/ljngjbnaijcbncmcnjfhigebomdlkcjo

除了querySelectorAll() 方法调用 CSS选择器 还可以使用
Xpath
IE: var nodes=document.selectNodes("//a[@href]");
其他浏览器都是采用 document.evaluate 这个函数,返回的是一个枚举集合,需要使用 while 循环来枚举元素。

var result = document.evaluate("//a[@href]", document, null, XPathResult.ANY_TYPE, null);
var nodes = result.iterateNext(); //枚举第一个元素
while (nodes){
// 对 nodes 执行操作;
nodes=result.iterateNext(); //枚举下一个元素
}

其他

document.querySelectorAll("a cite:first-of-type")[0].textContent
document.querySelectorAll("a cite:first-of-type")[0].firstChild.textContent
document.querySelectorAll("a cite:first-of-type")[0].firstChild.nodeValue
var list = document.getElementsByTagName("UL")[0]
var&nbsp;list = document.getElementsByClassName("example")[0];
var&nbsp;list = document.getElementsById("example")[0];

关于 HTML DOM querySelectorAll() 方法

querySelectorAll()“>querySelectorAll()
querySelectorAll() 方法返回文档中匹配指定 CSS 选择器的所有元素,返回 NodeList 对象。
提示: 你可以使用 NodeList 对象的 length 属性来获取匹配选择器的元素属性,然后你可以遍历所有元素,从而获取你想要的信息。
更多 CSS 选择器可以参考 CSS 选择器教程 , CSS 选择器参考手册

备案:苏ICP备20032543号-2