CSDNExporter-master
该笔记记录CSDNExporter-master的配置,以及一些代码的修改
- 安装必要的 Python 库, 如
httpx
,requests
,BeautifulSoup
; - 为了解析图片链接, 需要安装 aria2, 并保证能在命令行启动;
- 为了转换为 PDF, 需要安装 Pandoc
代码中的方法注释
argparse
argparse是python用于解析命令行参数和选项的标准模块,用于代替已经过时的optparse模块。argparse模块的作用是用于解析命令行参数。
我们很多时候,需要用到解析命令行参数的程序,目的是在终端窗口(ubuntu是终端窗口,windows是命令行窗口)输入训练的参数和选项。
|
|
parser.add_argument
parser.add_argument('--with_title', action='store_true')
关于parser.add_argument()记录一个特殊的情况:action
栗子1:self.parser.add_argument('--lr_use', action='store_true', default=False, help='if or not use lr_loss')
当在终端运行的时候,如果不加入--lr_use
, 那么程序running的时候,lr_use的值为default: False
如果加上了--lr_use
,不需要指定True/False,那么程序running的时候,lr_use的值为True
栗子2: self.parser.add_argument('--no_flip', action='store_false', help='.....')
当在终端运行的时候,并没有加入--no_flip
, 数据集中的图片并不会翻转,打印出来看到no_flip的值为True
Note:有default值的时候,running时不声明就为默认值,
没有的话,如果是store_false,则默认值是True,如果是store_true,则默认值是False
实在记不住搞混的话,可以每次在run之前print出来看一下值是true还是false,这样比较保险
soup = BeautifulSoup()
soup = BeautifulSoup(response.content, 'html.parser', from_encoding="utf-8")
代码中需要修改的地方
1.global language
utils.py文件中的recursive方法最前面加一个global language
,
防止出现 UnboundLocalError: local variable ’language’ referenced before assignment 的异常

2.增加代码高亮的解析
|
|

3.增加引用的解析
修改elif tag == 'p':
分支中的代码
|
|
4.完善列表解析
|
|
5.博客标题特殊符号出错
若博客标题名为Linux C/C++
,那么文件输出时会出错,因为会把该标题当成 Linux C
/C++
路径,导致找不到该文件夹
需在执行html2md
前对title进行处理
|
|
6.图片的保存路径
每个xxx.md
的图片都保存到xxx.assets
中
1.首先在Parser类中将fig_dir
设置成外部传参的形式

2.修改recursive
方法中elif tag == 'img':
分支下的代码
|
|

3.在html2md
方法中新增一个参数fig_dir
,并在初始化Parser
类的时候将其传入
4.在调用html2md
前设置fig_dir
的路径
|
|