中国可能实现谷歌图书搜索计划么?
从2007年 KINDLE 第一代 ,到2010年 iPad 出世 ,到2017年 YOTA3 阅读手机
十年间,阅读的硬件形态已经升级到我们每天离不开身的智能手机。
同周期中,我们的内容出版行业,仍然相对稳健进步。
“中国的出版业管得很死,要拿一个书号是很不容易的,在这种情况下,当互联网起来的时候,为什么还要让这样的出版业接着生存下去?”——李彦宏2012百度峰会语录
Robin的话尽显了出版人乃至整个出版界在现实中的尴尬。
变革之路在哪?
伟大的计划:谷歌图书搜索计划
谷歌图书搜索计划策动的是一起足以改变人类阅读的未来的计划。通过与大型研究型图书馆达成协议将数以万计的图书收入谷歌图书搜索中。已经没有版权的书籍则开放全书下载,拥有版权的书籍则通过购买许可证的方式开放。
有些人会说何必依靠谷歌呢?还要买许可证。但是那些远在外国无法进口的书籍,那些初版的珍藏书籍,绝版的孤本,手写的文献,这些我们即使有钱都无法得到的珍贵的书籍,若是通过此项计划得以让全球人类共享,这就是这个搜索计划的伟大之处。让知识跨越国界以及权限的限制,跨越时间的差距和地理位置的阻隔在人与人之间得以传播。
阅读者的利益:
你离读到迄今为止出版过的所有书的电子版只有一步之遥。如果你想读的是那些还没出版的书,可能还是需要付一些钱,但是其他所有已经出版的书,都可能可以在每个阅读终端上免费阅读。这个电子书库的馆藏会比美国国会图书馆、哈佛大学、密歇根大学和欧洲任何一个国家的国家图书馆的馆藏都要大。
在每个阅读终端上,你能搜索千万本的图书,并且阅读你能找到的图书的每一页。你可以高亮段落,做注释和分享。人们还能第一次自由地在所有已经印刷出来的图书中定位一个观点之后直接把链接发给别人。很快图书也能像网页一样可以在眨眼之间获取、搜索和复制粘贴。
谷歌的技术实施方案:
谷歌和密歇根大学、哈佛、斯坦福、牛津、纽约公共图书馆和许多其他图书馆系统都订立了合约,在十年多一点的时间里扫描了大约2500万册图书。
从周一到周五,装满图书的半挂卡车都会停在谷歌扫描中心的门口。图书从卡车上卸下来之后会放在图书馆里常见的那种小推车里,然后被推给人工操作员。扫描中心大约有几十台扫描仪,一行一行地整齐排列,台与台之间间隔2米左右,操作员就坐在明亮的扫描仪前工作。
这些扫描仪是谷歌定制的,它们给书拍照。每台仪器一小时可以数字化1000页左右的图书。待扫描的书会被放在一个特别设计的自动支架上,支架可以适应不同的书脊,并且将图书固定。仪器上方有一排灯,还光学器材,包括四个摄像头,两个分别照着摊开的书的左右两半,还有一个负责确定扫描范围的光学雷达,它会在图书表面生成一层激光网格,从而捕捉到纸页的曲度。操作员负责手动翻页,然后脚踩踏板来触发相机进行拍照。
这个扫描系统很高效的原因是软件完成了大部分工作。在谷歌的扫描系统中,每页歪歪扭扭的图书的照片会经过一个“去皱算法”的处理,该算法利用光学雷达的数据,最终使得书中每行文字回到正常的、看起来横平竖直的高度。
该项目的工程师负责研发能把图像转化为文字的光学识别软件,写去皱、颜色校正和对比度调节的算法,以便更好地处理图像,他们还研发了识别书中插图和图表的算法、提取页码的算法、把脚注转换为引用的算法、把图书按照相关度排序的算法。
中国可能实现谷歌图书搜索计划么?
在2010年8月,谷歌在博客上发了一条消息,说全世界总共有129864880册图书,而谷歌要把它们全部扫描完。截止2017年5月,还差1亿本没完成。
中国目前出版图书每年几十万种,不断递增。大众出版,教育出版,专业出版。出版内容与用户阅读需求还存在较大接触距离,找不到书,不知道看什么书,制约了全民阅读。
十年间,阅读的硬件形态已经升级到我们每天离不开身的智能手机。
同周期中,我们的内容出版行业,仍然相对稳健进步。
“中国的出版业管得很死,要拿一个书号是很不容易的,在这种情况下,当互联网起来的时候,为什么还要让这样的出版业接着生存下去?”——李彦宏2012百度峰会语录
Robin的话尽显了出版人乃至整个出版界在现实中的尴尬。
变革之路在哪?
伟大的计划:谷歌图书搜索计划
谷歌图书搜索计划策动的是一起足以改变人类阅读的未来的计划。通过与大型研究型图书馆达成协议将数以万计的图书收入谷歌图书搜索中。已经没有版权的书籍则开放全书下载,拥有版权的书籍则通过购买许可证的方式开放。
有些人会说何必依靠谷歌呢?还要买许可证。但是那些远在外国无法进口的书籍,那些初版的珍藏书籍,绝版的孤本,手写的文献,这些我们即使有钱都无法得到的珍贵的书籍,若是通过此项计划得以让全球人类共享,这就是这个搜索计划的伟大之处。让知识跨越国界以及权限的限制,跨越时间的差距和地理位置的阻隔在人与人之间得以传播。
阅读者的利益:
你离读到迄今为止出版过的所有书的电子版只有一步之遥。如果你想读的是那些还没出版的书,可能还是需要付一些钱,但是其他所有已经出版的书,都可能可以在每个阅读终端上免费阅读。这个电子书库的馆藏会比美国国会图书馆、哈佛大学、密歇根大学和欧洲任何一个国家的国家图书馆的馆藏都要大。
在每个阅读终端上,你能搜索千万本的图书,并且阅读你能找到的图书的每一页。你可以高亮段落,做注释和分享。人们还能第一次自由地在所有已经印刷出来的图书中定位一个观点之后直接把链接发给别人。很快图书也能像网页一样可以在眨眼之间获取、搜索和复制粘贴。
谷歌的技术实施方案:
谷歌和密歇根大学、哈佛、斯坦福、牛津、纽约公共图书馆和许多其他图书馆系统都订立了合约,在十年多一点的时间里扫描了大约2500万册图书。
从周一到周五,装满图书的半挂卡车都会停在谷歌扫描中心的门口。图书从卡车上卸下来之后会放在图书馆里常见的那种小推车里,然后被推给人工操作员。扫描中心大约有几十台扫描仪,一行一行地整齐排列,台与台之间间隔2米左右,操作员就坐在明亮的扫描仪前工作。
这些扫描仪是谷歌定制的,它们给书拍照。每台仪器一小时可以数字化1000页左右的图书。待扫描的书会被放在一个特别设计的自动支架上,支架可以适应不同的书脊,并且将图书固定。仪器上方有一排灯,还光学器材,包括四个摄像头,两个分别照着摊开的书的左右两半,还有一个负责确定扫描范围的光学雷达,它会在图书表面生成一层激光网格,从而捕捉到纸页的曲度。操作员负责手动翻页,然后脚踩踏板来触发相机进行拍照。
这个扫描系统很高效的原因是软件完成了大部分工作。在谷歌的扫描系统中,每页歪歪扭扭的图书的照片会经过一个“去皱算法”的处理,该算法利用光学雷达的数据,最终使得书中每行文字回到正常的、看起来横平竖直的高度。
该项目的工程师负责研发能把图像转化为文字的光学识别软件,写去皱、颜色校正和对比度调节的算法,以便更好地处理图像,他们还研发了识别书中插图和图表的算法、提取页码的算法、把脚注转换为引用的算法、把图书按照相关度排序的算法。
中国可能实现谷歌图书搜索计划么?
在2010年8月,谷歌在博客上发了一条消息,说全世界总共有129864880册图书,而谷歌要把它们全部扫描完。截止2017年5月,还差1亿本没完成。
中国目前出版图书每年几十万种,不断递增。大众出版,教育出版,专业出版。出版内容与用户阅读需求还存在较大接触距离,找不到书,不知道看什么书,制约了全民阅读。
![]() |
亚马逊 Kindle 世界流行电纸书 |
![]() |
iPad 2010起风靡全球 |
![]() |
2017热门阅读手机YOTA3 (电子屏+墨水屏两个屏幕) |