老王论坛
标题:
关于H文校对的一些技巧和疑问
[打印本页]
作者:
赵州桥
时间:
2024-7-19 09:11
标题:
关于H文校对的一些技巧和疑问
起因:因为下载了吧内《P站超全合集30000+本 加上大量细分tag分类》这个文件
% A* G9 F8 [6 E+ S* ?(欢迎访问老王论坛:laowang.vip)
问题:每文的开头都是以下格式:
& M$ n; Q1 M: ^& ?
['9260472', '女帝的一二三四五六事', '纪银徵和她的,嗯,男朋友们的故事?纯爱战士,退退退!', ['R-18G', '疼痛', '孕妇', '出产', '羊水', '中文', '妊娠', '恋愛', '孕交'], '`Moss', 5]
0 o$ l# M2 a! o) o. t0 h' H/ [(欢迎访问老王论坛:laowang.vip)
/ _. N) s8 u3 i8 m' X$ F( M
['1546193', '北国万象', '本系列现在仅作为都市背景的合集\n每一篇的具体设定并不一定完全相同', ['R-18G', 'オリジナル', '中国語', '剧情向', '処刑', '百合', '猎奇', '秀色', '血腥', '斩首'], '〆リクキ〆', 5]……
% H4 w1 I/ K. o5 G, W# Z/ z9 ~(欢迎访问老王论坛:laowang.vip)
/ x" E8 ]; k! t$ U2 `(欢迎访问老王论坛:laowang.vip)
7 o7 @5 Q, d* X3 J(欢迎访问老王论坛:laowang.vip)
不影响观看,但是又有点不舒服,所以想要校对一下,经过一些努力,总算校准了一点,但是还是有一些问题,所以发帖和大家讨论一下。
" M2 W- Y. O% `, i(欢迎访问老王论坛:laowang.vip)
( f& V2 i# y9 o t0 {
校对软件:EmEditor
9 C8 B, s4 \" [" H$ c% I9 K(欢迎访问老王论坛:laowang.vip)
8 V. Z6 p9 w: O3 s. C4 o
用正则表达式进行查找替换后可以把开头格式转换为图1图2所示:
& [6 H& D7 o U) g; n/ d
, a: w' V9 U; s7 B" A(欢迎访问老王论坛:laowang.vip)
表达式:查找\['\d{4,7}', '(.*?)', '(.*?)', \['(.*?)', '(.*?)'\], '(.*?)', (.*?)\] 替换\1\6\n\5\n\2\n\[\3,\4\]
; A1 m8 W6 F) R(欢迎访问老王论坛:laowang.vip)
2 K# \. g# k3 I+ O3 o8 m3 w
经过校对后书名章节数作者简介都很好,但是在文章标签这块,也就是我举例中的['R-18G', '疼痛', '孕妇', '出产', '羊水', '中文', '妊娠', '恋愛', '孕交']和['R-18G', 'オリジナル', '中国語', '剧情向', '処刑', '百合', '猎奇', '秀色', '血腥', '斩首']这块出现一点小问题,并没有出现我希望的[R-18G,疼痛,孕妇,出产,羊水,中文,妊娠,恋愛,孕交]和[R-18G,オリジナル,中国語,剧情向,処刑,百合,猎奇,秀色,血腥,斩首]的格式,也就是替换后这里面还是出现了', '这个(如图),并没有替换成中文逗号,虽然可以进行二次处理,但是有点麻烦,经过检查,这是由于查找表达式中这一块', '(.*?)是连在一起被表达的,所以在替换中这一块中间的', '是没有被换成中文逗号,但是由于标签数量不固定,也就是可能是9个可能是10个或其它数量,所以尝试了很多办法,还是没有能够很好的处理,所以请吧友们帮帮忙,有什么方法能够处理。表达式引擎是Boost.regex。
3 c4 R3 a5 S4 ?+ C% {(欢迎访问老王论坛:laowang.vip)
* A; d0 A1 {3 r3 L, ?
5 ]& R; x3 j6 I T1 [(欢迎访问老王论坛:laowang.vip)
% t; d, ^* l5 f y; }* Q1 X* B(欢迎访问老王论坛:laowang.vip)
作者:
yuliu1999
时间:
2024-7-23 07:14
因为我不太了解正则,所以花了半天找了找,有个叫“平衡组”的东西好像就是解决这种“标签里的标签”的问题的。
0 \& Q. s% c9 R B. k1 f
不过我不太懂,推荐您看看这个
https://blog.csdn.net/lxcnn/article/details/4402808
欢迎光临 老王论坛 (https://laowang98234.xyz/)
Powered by Discuz! X3.4