针对jupyter文件中锚点问题修复

WangHunZi · WangHunZi · commit 023d77179381 · 2023-09-14T11:27:51.000+08:00
diff --git a/README.md b/README.md
@@ -10,6 +10,13 @@ python脚本下载[jyy老师](https://jyywiki.cn/)的OS课件。尽量使用最
 所有的课件内容都在`Courseware`这个文件夹里。
 
 # 更新
+## V2.4 2023-09-14
+忘了验证其他年份课件的下载了，然后发现jupyter课件中的`href`属性中提供的链接是这样的
+```html
+<h3 id="Demo%EF%BC%9A%E4%BD%BF%E7%94%A8-tar-%E5%91%BD%E4%BB%A4">Demo&#65306;&#20351;&#29992; tar &#21629;&#20196;<a class="anchor-link" href="lect1.ipynb.html#Demo%EF%BC%9A%E4%BD%BF%E7%94%A8-tar-%E5%91%BD%E4%BB%A4">&#182;</a>
+```
+导致解析后下载出现了奇怪的文件夹，添加一行`link = urlparse(link).path`即可解决问题，这行代码直接提取出`lect1.ipn.html`
+
 ## V2.3 2023-09-14
 算是比较重要的一次更新了，本次更新的代码解决了课件中文件下载不全的问题，之前下载不全是因为要猜测会有什么样类型的文件，现在不用猜测了，只需要跟着链接下载即可。
 
diff --git a/main.py b/main.py
@@ -3,6 +3,7 @@
 import requests
 from bs4 import BeautifulSoup
 from urllib.parse import urljoin
+from urllib.parse import urlparse
 
 
 def download(url_, path_):
@@ -18,7 +19,7 @@ def download(url_, path_):
         else:
             with open(path_, 'wb') as file:
                 file.write(response.content)
-        print(f"\033[32m已下载 \033[0m{path_}")
+        print(f"\033[32m已下载 \033[0m文件链接 {url_}, 文件路径{path_}")
     else:
         print(f"\033[91m无法下载文件链接：\033[0m{url_}, \033[91m状态码：\033[0m{response.status_code}")
 
@@ -30,6 +31,7 @@ class OSCourseware:
     WITHOUT_DOWNLOAD = [
         "https://jyywiki.cn/pages/OS/2022/Labs/lab-makefile.png",  # 404
         "https://jyywiki.cn/OS/2021/slides/Slides_Author",         # 404
+        "https://jyywiki.cn/OS/2022/slides/Slides_Author",         # 404
         "https://jyywiki.cn/index.html"                            # unnecessary
     ]
     KEY_YEAR = {'A': "2021", 'B': "2022", 'C': "2023", 'D': "ALL", '': "2023"}
@@ -60,7 +62,7 @@ def build_courseware_url_path(year_):
         elif self.year_input != "Invalid":
             self.sources_url_path_pairs.update(build_courseware_url_path(self.year_input))
             if self.year_input != "2023":
-                self.WITHOUT_DOWNLOAD.append(f'{self.BASE_URL}/OS/2023/index.html')
+                self.WITHOUT_DOWNLOAD.append(f'{self.BASE_URL}/OS/2023/index.html')  # 避免在其他文件中误下载2023/index.html
         else:
             print("\033[91m输入非法，程序退出")
             sys.exit()
@@ -85,22 +87,22 @@ def file_analyse(self, filepath):
             return
 
         # 提取文件中的相对链接
-        _links_tags = soup.find_all(href=True) + soup.find_all(src=True)
+        _links_tags = soup.find_all(href=True) + soup.find_all(src=True) + soup.find_all(data=True)
         _links_attr = []
         for link in _links_tags:
             _links_attr.extend([link.get("href"), link.get("src"), link.get("data")])
         _links_attr = list(set(_links_attr))  # 去除重复的元素
 
-        # 补全完整的文件地址和链接
+        # 以filepath指定的文件为参照补全文件中的网址以及在本地存储的地址
         for link in _links_attr:
             if link is not None and not link.startswith(("http", "data")):  # data是ipynb.html文件资源
-                # 以filepath指定的文件为参照补全文件中的网址以及在本地存储的地址
-                path = os.path.normpath(os.path.join(os.path.dirname(filepath), link.replace("/", "\\")))
+                link = urlparse(link).path  # 清除锚点
+                absolute_path = os.path.normpath(os.path.join(os.path.dirname(filepath), link.replace("/", "\\")))
                 try:
-                    relative_path = path.split(self.BASE_DIR + os.sep + self.COURSEWARE_DIR)[1]
+                    relative_path = absolute_path.split(self.BASE_DIR + os.sep + self.COURSEWARE_DIR)[1]
                     url = urljoin(self.BASE_URL, relative_path.replace("\\", "/"))
                     if url not in self.WITHOUT_DOWNLOAD:
-                        self.sources_url_path_pairs.update({url: path})
+                        self.sources_url_path_pairs.update({url: absolute_path})
                         self.WITHOUT_DOWNLOAD.append(url)
                 except IndexError:
                     continue