Выполнение команд на удаленном spark (EC2) с использованием локального интерфейса R(sparkr) зависает
Привет,
Я пытаюсь запустить несколько команд spark с помощью SparkR (из локального R-GUI). Для настройки кластера spark на EC2 я использовал большинство команд из ( https://edgarsdatalab.com/2016/08/25/setup-a-spark-2-0-cluster-r-on-aws/) с небольшими изменениями для установки последних версий. Все, что я пытался сделать, это взаимодействовать с удаленным spark(на EC2-Ubuntu) из моего локального R-GUI с помощью пакета SparkR.
**Вот моя настройка (шаг за шагом):**
1. У меня Windows 8.1 на ПК с Р3.3.3 и пакет SparkR.
2. Я создал АРМ-экземпляр EC2 (счета бесплатного пользования) и использовать существующий образ Ubuntu из Амазонки.
3. Установлено шпатлевка на моем локальном ПК. Использовал терминал PuTTy для подключения к Ubuntu-16 (на EC2) и использовал его для шагов с 4 по 10 ниже.
4. установил Java, а затем spark-2.1.1-bin-hadoop2. 7 на EC2
5. Добавлены следующие .bashrc и (/дома/Убунту)
экспорт SPARK_HOME=~/сервер/СПАРК-2.1.1-Бен-hadoop2.7
PATH=$PATH:$SPARK_HOME/bin
путь экспорта
6. загрузите измененный файл.
. .bashrc следующее
7. установлен R на EC2-Ubuntu
8. я создал еще один экземпляр на EC2(с Ubuntu) и выполнил шаги 4-6 (выше), чтобы настроить рабочий узел spark.
9. На первом экземпляре EC2 (назовем его мастер экземпляра), я начал СПАРК мастер, используя start-master.sh. Попал URL-адрес с веб-интерфейса для Искры.
10. на втором экземпляре EC2 (назовем его Slave instance) я запустил Spark slave с помощью start-slave.sh и передача URL-адреса spark master.
11. затем запустил R (GUI) на моем локальном компьютере.
12. Побежал следующий от Р подключение и выполнение команд в Искра. (в следующем xx.yy.zz.aa-это публичный ip-адрес мастера spark).
библиотека (SparkR)
sparkR.сессии(мастер = "искрой://ХХ.ый.ЗЗ.А. А.:7077", sparkHome = "/главная/Убунту/сервер/СПАРК-2.1.1-Бен-hadoop2.7", enableHiveSupport=ложь)
ds < - createDataFrame (mtcars) ## R перестает отвечать
13. Когда я убил процесс из Spark web UI после достаточно долгого ожидания. Я получаю следующую ошибку (см. скриншот):
[Скриншот]
Пожалуйста помочь. Что я делаю не так? Как я могу это исправить? Все, что я хочу сделать, это использовать remote spark с локального ПК с помощью интерфейса R(local PC).
Спасибо,
СГ
Что я уже пробовал:
- в sparkR. Session () я попытался передать публичный и частный адреса первого экземпляра EC2 (master).
- Я также попытался установить R на оба экземпляра EC2. Даже удаление R из обоих не сработало.
- Кроме того, попробовал запустить spark master и slave на том же EC2-Ubuntu (первый EC2).
- РАН Р внутри платформы EC2 экземпляра Ubuntu, в которой есть ведущий и ведомый работает на той же платформе EC2. Ничего не получалось