搜索 社区服务 统计排行 帮助
  • 4600阅读
  • 4回复

[原创]用专业OCR软件进行字幕识别

楼层直达
级别: 圣骑士
注册时间:
2002-12-10
在线时间:
0小时
发帖:
2024
用专业OCR软件进行字幕识别

附件包括:
SubRip_1.50_Beta.rar
esrXP b10.rar
尚书OCR是商业软件,恕不提供,请勿询问如何获得。

附件下载
http://202.38.64.240/person/echoIII/subsoft/SubRip_1.50_Beta.rar
http://202.38.64.240/person/echoIII/subsoft/esrXPb10.rar



虽然SubOCR之类的字幕软件的OCR识别率已经相当可以,但毕竟不能跟专业的OCR软件相比,本文就来介绍一下如何利用专业的OCR软件进行识别,共分三部分
第一部分:用Subrip准备图片文件
1.安装打开Subrip,文件->打开Vob文件,打开文件目录->选择sub文件,语言数据流选好,右面操作里选字幕图片保存为4bit的BMP文件,以及在加时间和尺寸上打勾,然后开始,随便输入一个文件名,保存

2.预设里选I-Author;选取Custom Colors and Contrast,先把颜色#1-4全部选择成白色(#1-4分别代表字芯、字框、背景、消除走样,每个字幕的#1-4所代表的都不一样),然后一一测试哪一个为字芯,设为黑色,其他3项全部为白色,确定

3.SubRip会自动将每一幅图片保存为BMP,并且加上相应时间顺序。接下来输出格式->设置输出格式,

选择Text Formats下的SubRip(*.srt)->转换成此格式文件

文件->另存为,然后点保存,将srt保存到与建立的那堆bmp在同一层目录



第二部分:用专业OCR软件进行文字识别
这一部分的OCR软件可以随意替换,只要满足两个条件就行:
1)支持批量识别(好像基本上都满足)
2)支持将识别的全部文本合并成一个文件(这条不重要,很多文本处理软件可以将txt合并,比如DreamEdit)
所以不仅针对中文,也可以用来识别英文,日文或其他语种的,只要能找到相应的OCR软件就行。

1.图片格式转换,我选择的是尚书七号,然而它居然不支持4bit的bmp文件(虽然可以添加,但无法识别),所以先用随便一个图像软件转一下格式,比如我用ACDSee转成jpg,反正这层转换不会影响OCR识别质量。原bmp文件不要删除。如果选择的其他OCR软件支持就不需要这一步。
2.文件->系统设置,设置系统参数里选为简繁混合,因为我们识别的字幕多半是繁体的

3.文件->打开图像,全选刚才转换过来的全部jpg文件

打开后可以看到左边窗口列表,语言那栏确保是“简繁”,然后点中,ctrl + A全选,选中后全部标蓝如图,然后 识别->开始识别

4.全选,输出->到指定文件格式,随便起名保存成txt,则所有识别结果被合并到一个txt文件中


第三部分:用esrXP进行校对
1.运行esrXP,file->Open,打开文件类型选择srt,选择刚才第一部分建立的srt文件(确保这个文件和这堆bmp在同一层目录)

2.用记事本打开第二部分生成的txt文件,全选复制,粘贴到esrXP左边的窗口,然后对照右边窗口的图片进行校对。可以看到,左右两边是一一对应的,左边每向下移动一行右边也会向下移动一行,右边选中行是灰色的。有时会因为分行而导致对不上,只要依次往上并一行就又对上了。行行对齐十分重要。

3.校对完成后,file->Save as保存,保存类型可以选srt或者ssa,如果保存工程文件,则直接保存为esr。

fws
级别: 工作组
注册时间:
2006-03-25
在线时间:
1小时
发帖:
1242
只看该作者 1楼 发表于: 2006-11-21
樓主發了3篇教學真是有心阿
辨識bmp我是都用SubToSrt
這套字庫要多才會比較輕鬆
级别: 工作组
注册时间:
2006-09-06
在线时间:
16小时
发帖:
955
只看该作者 2楼 发表于: 2006-11-23
很厉害的教程。
级别: 新手上路
注册时间:
2006-08-21
在线时间:
0小时
发帖:
39
只看该作者 3楼 发表于: 2006-11-24
LZ 你是强人啊啊啊强人
级别: 新手上路
注册时间:
2006-08-21
在线时间:
0小时
发帖:
39
只看该作者 4楼 发表于: 2006-12-05
LZ提供的附件无法下载 天啊
快速回复

限150 字节
上一个 下一个