使用Vobsub转换idx/sub字幕格式为Srt格式 一例(图文说明)
2011-01-22 17:14:53
简述:
想看牺牲者游戏(俄罗斯电影),有了视频文件但是没有字幕 :(
正好熊仔提供了一个从DVD提出来的波兰语字幕,格式是idx/sub。
目标是将字幕转换为srt格式后,用google翻译为英文后再看这部电影。
打开vobsub自带的小工具subresync.exe,载入原DVD字幕。存在两条字幕轨道,都是波兰语,选择其中字型稍粗的字幕轨道作为OCR用,点击“save as”
将保存类型改为subripper(*.srt)格式,勾上unicode output,输入自定义的文件名,点击“保存”
开始准备OCR,这时候出现一个问题,字幕的颜色不够明显,不能按照字母元素识别,这时候需要修改idx文件有关配置,改变字体颜色
用记事本打开idx文件,找到如上内容,将自定义颜色设为“ON”,修改隐藏颜色和字体颜色后,保存文件。
重新用subresync打开idx文件,这时候字幕的颜色已经变成鲜艳的黄色了。按照上面的步骤重新开始OCR,这时候就可按照单个字母的元素进行识别了。手工输入看到的第一个字母大写"Z",点击“Add”按钮,将这个字母存入识别库,后面同样的字母或符号都不用重复输了(斜体字母和正体 字母一般情况下需要分别识别输入)。
继续后面的字母识别工作……(刚开始输入的字母,标点符号,数字等需要花一些时间,但是一般西文字母多为20、30个左右,所以越到后面需要手工输入的字母就越来越少了。vobsub的识别精准很好,只要没有输错字母,基本上可以省去后面的校验工作。如果前面看错了或者不小心敲错了字母,最好重新再来。网上有一些识别不认真的字幕,常常看到数字1和字母l混在一起,还有些标点符号的错误,很大程度会导致理解的错误,所以尽量仔细一些)
终于出现了和26个英文字母不同的波兰字母,这里的“ ł ”可是比“ l ”中间多了一笔的。
很多国家文字的字母都可能出现我们不认识的。千万不能用相近的英文字母代替,那是可能出现牛头不对马嘴的单词的。
因为我们前面已经选择了unicode的保存格式,所以这些异型字母是可以保存而不会出现乱码。
我们使用google 或者百度找到波兰字母表,虽然我们不能从键盘上打出“ ł ”这个字母,但是复制黏贴总是可以的……如此这般……继续向识别字库里添加未出现过的各种各样的字母和符号
很多情况下,有几个字母如rwyt等容易被连在一起,不能被软件分开识别,这时候只能妥协,输入对应的连体字母,在上面的图中就要输入rz
这是常见的另外一种情况,识别不全,本来是!号,但是下面的那个点没有被包进去,这时候就需要,点击“extend”按钮,扩展识别的范围(如果偷懒,在符号或者字母不全的时候输入对应的符号字母,后面的工作量可能大很多,可能会出现不该有的多余的空格或不明文字)
现在这样就可以输入对应的“!”号了,注意,由于vobsub识别的是西文字母,最好不好把中文输入法中的标点符号带进去。
经过大约30分钟,转换就完成了。和原始的idx字母对照检查了一下,正确率还是挺高的。
上图左边是波兰文字幕,右边是google翻译的英文字幕,对照视频画面基本上来理解没有什么大问题。(忍不住吐槽一下:以前看另外一部俄罗斯电影《和家庭动物旅行》时也用过一个波兰文字字幕,估计也是OCR出来的,但是由于错误率高,等google翻译出来基本上只有30-40%的可理解性,看片的时候,连蒙带猜,看图说话,很是不爽!)
希望以上的图文描述能为一些朋友的艰苦而顽强的看片过程有所帮助 :)
谢谢.
想看牺牲者游戏(俄罗斯电影),有了视频文件但是没有字幕 :(
正好熊仔提供了一个从DVD提出来的波兰语字幕,格式是idx/sub。
目标是将字幕转换为srt格式后,用google翻译为英文后再看这部电影。
![]() |
打开vobsub自带的小工具subresync.exe,载入原DVD字幕。存在两条字幕轨道,都是波兰语,选择其中字型稍粗的字幕轨道作为OCR用,点击“save as”
![]() |
将保存类型改为subripper(*.srt)格式,勾上unicode output,输入自定义的文件名,点击“保存”
![]() |
开始准备OCR,这时候出现一个问题,字幕的颜色不够明显,不能按照字母元素识别,这时候需要修改idx文件有关配置,改变字体颜色
![]() |
用记事本打开idx文件,找到如上内容,将自定义颜色设为“ON”,修改隐藏颜色和字体颜色后,保存文件。
![]() |
重新用subresync打开idx文件,这时候字幕的颜色已经变成鲜艳的黄色了。按照上面的步骤重新开始OCR,这时候就可按照单个字母的元素进行识别了。手工输入看到的第一个字母大写"Z",点击“Add”按钮,将这个字母存入识别库,后面同样的字母或符号都不用重复输了(斜体字母和正体 字母一般情况下需要分别识别输入)。
![]() |
继续后面的字母识别工作……(刚开始输入的字母,标点符号,数字等需要花一些时间,但是一般西文字母多为20、30个左右,所以越到后面需要手工输入的字母就越来越少了。vobsub的识别精准很好,只要没有输错字母,基本上可以省去后面的校验工作。如果前面看错了或者不小心敲错了字母,最好重新再来。网上有一些识别不认真的字幕,常常看到数字1和字母l混在一起,还有些标点符号的错误,很大程度会导致理解的错误,所以尽量仔细一些)
![]() |
终于出现了和26个英文字母不同的波兰字母,这里的“ ł ”可是比“ l ”中间多了一笔的。
很多国家文字的字母都可能出现我们不认识的。千万不能用相近的英文字母代替,那是可能出现牛头不对马嘴的单词的。
因为我们前面已经选择了unicode的保存格式,所以这些异型字母是可以保存而不会出现乱码。
我们使用google 或者百度找到波兰字母表,虽然我们不能从键盘上打出“ ł ”这个字母,但是复制黏贴总是可以的……如此这般……继续向识别字库里添加未出现过的各种各样的字母和符号
![]() |
很多情况下,有几个字母如rwyt等容易被连在一起,不能被软件分开识别,这时候只能妥协,输入对应的连体字母,在上面的图中就要输入rz
![]() |
这是常见的另外一种情况,识别不全,本来是!号,但是下面的那个点没有被包进去,这时候就需要,点击“extend”按钮,扩展识别的范围(如果偷懒,在符号或者字母不全的时候输入对应的符号字母,后面的工作量可能大很多,可能会出现不该有的多余的空格或不明文字)
![]() |
现在这样就可以输入对应的“!”号了,注意,由于vobsub识别的是西文字母,最好不好把中文输入法中的标点符号带进去。
![]() |
经过大约30分钟,转换就完成了。和原始的idx字母对照检查了一下,正确率还是挺高的。
上图左边是波兰文字幕,右边是google翻译的英文字幕,对照视频画面基本上来理解没有什么大问题。(忍不住吐槽一下:以前看另外一部俄罗斯电影《和家庭动物旅行》时也用过一个波兰文字字幕,估计也是OCR出来的,但是由于错误率高,等google翻译出来基本上只有30-40%的可理解性,看片的时候,连蒙带猜,看图说话,很是不爽!)
希望以上的图文描述能为一些朋友的艰苦而顽强的看片过程有所帮助 :)
谢谢.
> Taba的日记












taba!感謝~
真给力!
我考,可以换颜色啊
谢
人类的进步都靠你们了
@mimibuda
人類的進化靠你了
有的时候,google翻译真的也一般。我甚至是把google翻译结果拷贝到记事本里。然后,一边看视频,一遍对着记事本拖滚动条看字幕,真累呀~"
OCR很痛苦,尤其是中文
真苦逼啊……一般我找不到中文字幕的就删掉
[含淚咬手帕] 看到未來的曙光~
原来我之前做的也是对的
原来还可以换颜色
> 我来回应