hadoop文件乱码

作者: 暗里着迷iii
来源: 51数据库
2021-04-04

1、hadoop内部默认的文本读取编码设置为utf-8，你的源文件为gbk，在读取时遇到中文时是肯定要出现乱码。
解决方法有二：
（1）将你的GBK编码的文件在生成时，统一成utf-8,这是最好的方式，方便国际化。
（2）重写一个你的hadoop读文件的FileInputFormat对象，在其中进行传相应的编码值与编码转换的工作，这个是比较麻烦，实际当中用得很少。

再思考下。

推荐阅读