百度贴吧首页锟斤拷乱码的来源.. Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CH
贴吧:
魔兽世界作者:
庞加莱回归4845 2010-08-14 17:00 Python 字符串 所有用过 Python (2&3)的人应该都看过下面两行错误信息: UnicodeEncodeError: 'ascii' codec can't encode cha
贴吧:
python作者:
朦胧七夜 2016-04-22 11:11 回复:求语文帝解释这是什么意思. 锟届瀿锟斤拷雮傡锟斤拷直锟斤拷锟这些字句是毫无实际意义的,但它们却形象地表达出了一些莫名其妙的问题。这是一个很经典的乱码。相当 经典锟斤拷经典。最容易出现的地方就是搜索引擎。编辑本段出现的原因
我们上网的时候不用去关心网站采用了什么编码格式,但是页面中不时出现的乱码还是会让我们头疼。在这点上,Firefox的用户更是深有体会,用Firefox浏览网页看到乱码的机会要比IE多得多。 乱码主要与字符编码系统有关。例如一个网页中常出现的乱码“锟斤拷”(百度,Google),它就是新老编码系统转换中出现的。网友est专门写了一篇文章来考证问题来源: 锟斤拷Python代码Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CHARACTER。那么U+FFFD的UTF-8编码出来,恰好是 '\xef\xbf\xbd'。如果这个'\xef\xbf\xbd',重复多次,例如 '\xef\xbf\xbd\xef\xbf\xbd',然后放到GBK/CP936/GB2312/GB18030的环境中显示的话就是“锟斤拷——锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)”。编辑本段最新出现
2011年2月2日零时出现,百度推出搜“红包”,每一次搜索都有惊喜 活动,就出现了。 签名档2012年8月31日又出现。通过IE内核的壳浏览器搜索网页,无论点开什么贴吧的超链接都会进入一个锟斤拷锟斤拷锟斤拷吧。抓包查看可能是百度bug。2012年12月27日,神一样的锟斤拷再度出现。在百度新闻首页的太原市地陷新闻图片中锟斤拷重复出现。2013年6月11日,零时11分,百度新闻:神舟十号11日17时38分发射 三位航天员公布链接指向神奇的“锟斤拷锟斤拷锟”,零时51分,恢复正常。 百度新闻截图
编辑本段解决方法
处理这个问题的办法是不要让wininet进行自动重定向(301 302之类),自己进行处理。这下更麻烦了,本来用wininet就是为了省事,没想到却要多写若干代码。还有一个可笑的事情是,wininet的ansi版本和unicode版本不同,后者自动地把url的path部分当成utf8处理,而前者不会。我有些工具是用delphi7写的,有些是用delphi 2010写的,对某些网站,后者则要调用以下这样的函数:InternetSetOption(hSession, 100{INTERNET_OPTION_CODEPAGE_PATH}, @CP_CHINA, sizeof(CP_CHINA));其中最新的常量,Delphi中还没有定义(CP_CHINA = 936)。
贴吧:
圣安地列斯作者:
??理塘丁真 2013-07-16 14:14 回复:锟斤拷烫是什么梗 Python 2.7.6 (default, Jun 12 2014, 19:40:27)
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> a=u'撉傓咱偑拐搢偲偄偆恖偼丄嵟掅偱傕乱3亃偲乱5亃偩偗偱傕撉傫偱偔偩偝偄丅丂'
>>> a
u'\u6489\u5093\u54b1\u5051\u62d0\u6422\u5072\u5044\u5046\u6056\u507c\u4e04\u5d5f\u6385\u5071\u5095\u4e713\u4e83\u5072\u4e715\u4e83\u5069\u5057\u5071\u5095\u6489\u50ab\u5071\u5054\u5069\u505d\u5044\u4e05\u4e02'
>>> a.encode('gbk')
'\x93\xc7\x82\xde\xd4\xdb\x82\xaa\xb9\xd5\x93|\x82\xc6\x82\xa2\x82\xa4\x90l\x82\xcd\x81A\x8d\xc5\x92\xe1\x82\xc5\x82\xe0\xc2\xd23\x81z\x82\xc6\xc2\xd25\x81z\x82\xbe\x82\xaf\x82\xc5\x82\xe0\x93\xc7\x82\xf1\x82\xc5\x82\xad\x82\xbe\x82\xb3\x82\xa2\x81B\x81@'
>>> b=_.decode('shift-jis','replace')
>>> b
u'\u8aad\u3080\uff94\uff9b\u304c\uff79\uff95\u5012\u3068\u3044\u3046\u4eba\u306f\u3001\u6700\u4f4e\u3067\u3082\uff82\uff923\u3011\u3068\uff82\uff925\u3011\u3060\u3051\u3067\u3082\u8aad\u3093\u3067\u304f\u3060\u3055\u3044\u3002\u3000'
>>> print b
読むヤロがケユ倒という人は、最低でもツメ3】とツメ5】だけでも読
贴吧:
pending作者:
青竹笋5 2014-07-17 01:56