在YARN上提交PyFlink作业时,为什么会报错无法找到Python脚本?

在YARN上提交PyFlink作业时,为什么会报错无法找到Python脚本?

Pyflink作业在yarn上提交失败:python脚本缺失原因分析及解决方法

使用YARN提交PyFlink作业时,可能会遇到找不到python脚本的错误,例如:

2024-05-24 16:38:02,030 info org.apache.flink.client.python.pythondriver [] - pyflink181.zip/pyflink181/bin/python: can't open file 'hdfs://nameservice1/pyflink/wc2.py': [errno 2] no such file or directory

这通常发生在使用以下类似命令时:

./flink run-application -t yarn-application  -dyarn.application.name=flinkcdctestpython  -dyarn.provided.lib.dirs="hdfs://nameservice1/pyflink/flink-dist-181"  -pyarch hdfs://nameservice1/pyflink/pyflink181.zip  -pyclientexec pyflink181.zip/pyflink181/bin/python  -pyexec pyflink181.zip/pyflink181/bin/python  -py hdfs://nameservice1/pyflink/wc2.py

与之对比,Java作业提交则通常不会出现问题:

./flink run-application -t yarn-application  -djobmanager.memory.process.size=1024m  -dtaskmanager.memory.process.size=1024m  -dyarn.application.name=flinkcdctest  -dyarn.provided.lib.dirs="hdfs://nameservice1/pyflink/flink-dist-181"  hdfs://nameservice1/pyflink/statemachineexample.jar

Java作业成功提交,说明HDFS配置正确,问题在于PyFlink作业的Python脚本路径或配置。

立即学习Python免费学习笔记(深入)”;

排查及解决步骤

  1. 验证Python脚本路径: 使用hdfs dfs -ls hdfs://nameservice1/pyflink/wc2.py命令检查脚本wc2.py是否存在于指定的HDFS路径。如果不存在,请确保正确上传脚本到该路径。

  2. 检查PyFlink配置: 仔细检查-pyarch、-pyclientexec和-pyexec参数,确保它们准确指向PyFlink环境和Python解释器。 pyflink181.zip必须包含所有必要的Python库和执行环境。

  3. 权限问题: 使用hdfs dfs -ls -h hdfs://nameservice1/pyflink/wc2.py查看脚本的HDFS权限。 如果权限不足,使用hdfs dfs -chmod 755 hdfs://nameservice1/pyflink/wc2.py修改权限,确保YARN和Flink用户拥有读取权限。

  4. 日志分析: 启用Flink和YARN的详细日志记录,分析错误日志以获取更具体的错误信息和发生位置。

  5. Python环境兼容性: 确保PyFlink使用的Python版本与开发脚本时使用的版本一致,避免版本不兼容导致脚本无法识别或执行。

通过以上步骤,系统地排查问题,并根据实际情况调整配置,即可解决PyFlink作业在YARN上提交时找不到Python脚本的问题。 如果问题仍然存在,请提供更详细的Flink和YARN日志信息以便进一步分析。

以上就是在YARN上提交PyFlink作业时,

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享