Commit graph

25 commits

Author SHA1 Message Date
Tristan Daniël Maat e111c1f081
Implement shanxi scraping 2022-04-09 23:06:53 +01:00
Tristan Daniël Maat e0a4a26990
Implement scrape utils 2022-04-09 23:06:46 +01:00
Tristan Daniël Maat 8c012a28b3
shanxi: Update page numbers 2022-04-09 23:06:27 +01:00
Tristan Daniël Maat ff7b03bc2b
Add absolutize_link util 2022-04-09 23:06:16 +01:00
Tristan Daniël Maat 8820ce1b95
Add ningxia file dump 2022-04-09 22:37:27 +01:00
Tristan Daniël Maat 3f2b0245ec
Fix link file extension 2022-04-09 22:36:40 +01:00
Tristan Daniël Maat ec77f0798b
Ignore article directories 2022-04-09 22:35:15 +01:00
Tristan Daniël Maat 5c557bdb9d
Implement scraping for ningxia 2022-04-09 22:34:42 +01:00
Tristan Daniël Maat 65bf00f452
Add linkutils 2022-04-09 22:33:43 +01:00
Tristan Daniël Maat 90b338945e
Update page numbers for ningxia 2022-04-09 22:32:13 +01:00
Tristan Daniël Maat f7cf03d442
Add dumped qinghai articles 2022-04-09 19:57:08 +01:00
Tristan Daniël Maat 6913be96a0
Add zip and unzip 2022-04-09 19:31:46 +01:00
Tristan Daniël Maat 7fc2a23d82
Handle special case 275 2022-04-09 19:31:09 +01:00
Tristan Daniël Maat 4a1cbbe452
Document the result of the dump 2022-04-09 19:30:55 +01:00
Tristan Daniël Maat 06dabf8c03
Work around other broken links 2022-04-09 19:30:41 +01:00
Tristan Daniël Maat 8cb72464b4
Work around broken link 2022-04-09 19:04:20 +01:00
Tristan Daniël Maat a66fbc83aa
Don't mistakenly refer to https links 2022-04-09 19:03:52 +01:00
Tristan Daniël Maat 3858d2a556
Override reported text encoding for qinghai 2022-04-09 18:58:58 +01:00
Tristan Daniël Maat e61a31154f
Fix missing write setting on file 2022-04-09 18:58:40 +01:00
Tristan Daniël Maat 340feaa7ed
Implement scraping for qinghai 2022-04-09 18:31:14 +01:00
Tristan Daniël Maat 6dace44412
Add page URLs to Readme 2022-04-09 17:45:35 +01:00
Tristan Daniël Maat 9030da9a0c
Add Readme 2022-04-09 17:43:47 +01:00
Tristan Daniël Maat 60d7eec53f
Add typescript-language-server 2022-04-09 17:43:37 +01:00
Tristan Daniël Maat dcb665cde4
Structure the project a bit better 2022-04-09 16:50:15 +01:00
Tristan Daniël Maat 4c73ace62d
Initial commit 2022-04-09 14:44:18 +01:00