电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Java將CSV的數據發送到kafka的示例

瀏覽:4日期:2022-08-21 09:56:33

為什么將CSV的數據發到kafka

flink做流式計算時,選用kafka消息作為數據源是常用手段,因此在學習和開發flink過程中,也會將數據集文件中的記錄發送到kafka,來模擬不間斷數據; 整個流程如下:

Java將CSV的數據發送到kafka的示例

您可能會覺得這樣做多此一舉:flink直接讀取CSV不就行了嗎?這樣做的原因如下: 首先,這是學習和開發時的做法,數據集是CSV文件,而生產環境的實時數據卻是kafka數據源; 其次,Java應用中可以加入一些特殊邏輯,例如數據處理,匯總統計(用來和flink結果對比驗證); 另外,如果兩條記錄實際的間隔時間如果是1分鐘,那么Java應用在發送消息時也可以間隔一分鐘再發送,這個邏輯在flink社區的demo中有具體的實現,此demo也是將數據集發送到kafka,再由flink消費kafka,地址是:https://github.com/ververica/sql-training

如何將CSV的數據發送到kafka

前面的圖可以看出,讀取CSV再發送消息到kafka的操作是Java應用所為,因此今天的主要工作就是開發這個Java應用,并驗證;

版本信息

JDK:1.8.0_181 開發工具:IntelliJ IDEA 2019.2.1 (Ultimate Edition) 開發環境:Win10 Zookeeper:3.4.13 Kafka:2.4.0(scala:2.12)

關于數據集

本次實戰用到的數據集是CSV文件,里面是一百零四萬條淘寶用戶行為數據,該數據來源是阿里云天池公開數據集,我對此數據做了少量調整; 此CSV文件可以在CSDN下載,地址:https://download.csdn.net/download/boling_cavalry/12381698 也可以在我的Github下載,地址:https://raw.githubusercontent.com/zq2599/blog_demos/master/files/UserBehavior.7z 該CSV文件的內容,一共有六列,每列的含義如下表:

列名稱 說明 用戶ID 整數類型,序列化后的用戶ID 商品ID 整數類型,序列化后的商品ID 商品類目ID 整數類型,序列化后的商品所屬類目ID 行為類型 字符串,枚舉類型,包括(’pv’, ’buy’, ’cart’, ’fav’) 時間戳 行為發生的時間戳 時間字符串 根據時間戳字段生成的時間字符串

關于該數據集的詳情,請參考《準備數據集用于flink學習》

Java應用簡介

編碼前,先把具體內容列出來,然后再挨個實現:

從CSV讀取記錄的工具類:UserBehaviorCsvFileReader 每條記錄對應的Bean類:UserBehavior Java對象序列化成JSON的序列化類:JsonSerializer 向kafka發送消息的工具類:KafkaProducer 應用類,程序入口:SendMessageApplication

上述五個類即可完成Java應用的工作,接下來開始編碼吧;

直接下載源碼

如果您不想寫代碼,您可以直接從GitHub下載這個工程的源碼,地址和鏈接信息如下表所示:

名稱 鏈接 備注 項目主頁 https://github.com/zq2599/blog_demos 該項目在GitHub上的主頁 git倉庫地址(https) https://github.com/zq2599/blog_demos.git 該項目源碼的倉庫地址,https協議 git倉庫地址(ssh) git@github.com:zq2599/blog_demos.git 該項目源碼的倉庫地址,ssh協議

這個git項目中有多個文件夾,本章源碼在flinksql這個文件夾下,如下圖紅框所示:

Java將CSV的數據發送到kafka的示例

編碼

創建maven工程,pom.xml如下,比較重要的jackson和javacsv的依賴:

<?xml version='1.0' encoding='UTF-8'?><project xmlns='http://maven.apache.org/POM/4.0.0' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xsi:schemaLocation='http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd'> <modelVersion>4.0.0</modelVersion> <groupId>com.bolingcavalry</groupId> <artifactId>flinksql</artifactId> <version>1.0-SNAPSHOT</version> <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.10.0</flink.version> <kafka.version>2.2.0</kafka.version> <java.version>1.8</java.version> <scala.binary.version>2.11</scala.binary.version> <maven.compiler.source>${java.version}</maven.compiler.source> <maven.compiler.target>${java.version}</maven.compiler.target> </properties> <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>${kafka.version}</version> </dependency> <dependency> <groupId>com.fasterxml.jackson.core</groupId> <artifactId>jackson-databind</artifactId> <version>2.9.10.1</version> </dependency> <!-- Logging dependencies --> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.7.7</version> <scope>runtime</scope> </dependency> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2.17</version> <scope>runtime</scope> </dependency> <dependency> <groupId>net.sourceforge.javacsv</groupId> <artifactId>javacsv</artifactId> <version>2.0</version> </dependency> </dependencies> <build> <plugins> <!-- Java Compiler --> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <version>3.1</version> <configuration> <source>${java.version}</source> <target>${java.version}</target> </configuration> </plugin> <!-- Shade plugin to include all dependencies --> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-shade-plugin</artifactId> <version>3.0.0</version> <executions> <!-- Run shade goal on package phase --> <execution> <phase>package</phase> <goals> <goal>shade</goal> </goals> <configuration> <artifactSet><excludes></excludes> </artifactSet> <filters><filter> <!-- Do not copy the signatures in the META-INF folder. Otherwise, this might cause SecurityExceptions when using the JAR. --> <artifact>*:*</artifact> <excludes> <exclude>META-INF/*.SF</exclude> <exclude>META-INF/*.DSA</exclude> <exclude>META-INF/*.RSA</exclude> </excludes></filter> </filters> </configuration> </execution> </executions> </plugin> </plugins> </build></project>

從CSV讀取記錄的工具類:UserBehaviorCsvFileReader,后面在主程序中會用到java8的Steam API來處理集合,所以UserBehaviorCsvFileReader實現了Supplier接口:

public class UserBehaviorCsvFileReader implements Supplier<UserBehavior> { private final String filePath; private CsvReader csvReader; public UserBehaviorCsvFileReader(String filePath) throws IOException { this.filePath = filePath; try { csvReader = new CsvReader(filePath); csvReader.readHeaders(); } catch (IOException e) { throw new IOException('Error reading TaxiRecords from file: ' + filePath, e); } } @Override public UserBehavior get() { UserBehavior userBehavior = null; try{ if(csvReader.readRecord()) { csvReader.getRawRecord(); userBehavior = new UserBehavior( Long.valueOf(csvReader.get(0)), Long.valueOf(csvReader.get(1)), Long.valueOf(csvReader.get(2)), csvReader.get(3), new Date(Long.valueOf(csvReader.get(4))*1000L)); } } catch (IOException e) { throw new NoSuchElementException('IOException from ' + filePath); } if (null==userBehavior) { throw new NoSuchElementException('All records read from ' + filePath); } return userBehavior; }}

每條記錄對應的Bean類:UserBehavior,和CSV記錄格式保持一致即可,表示時間的ts字段,使用了JsonFormat注解,在序列化的時候以此來控制格式:

public class UserBehavior { @JsonFormat private long user_id; @JsonFormat private long item_id; @JsonFormat private long category_id; @JsonFormat private String behavior; @JsonFormat(shape = JsonFormat.Shape.STRING, pattern = 'yyyy-MM-dd’T’HH:mm:ss’Z’') private Date ts; public UserBehavior() { } public UserBehavior(long user_id, long item_id, long category_id, String behavior, Date ts) { this.user_id = user_id; this.item_id = item_id; this.category_id = category_id; this.behavior = behavior; this.ts = ts; }}

Java對象序列化成JSON的序列化類:JsonSerializer

public class JsonSerializer<T> { private final ObjectMapper jsonMapper = new ObjectMapper(); public String toJSONString(T r) { try { return jsonMapper.writeValueAsString(r); } catch (JsonProcessingException e) { throw new IllegalArgumentException('Could not serialize record: ' + r, e); } } public byte[] toJSONBytes(T r) { try { return jsonMapper.writeValueAsBytes(r); } catch (JsonProcessingException e) { throw new IllegalArgumentException('Could not serialize record: ' + r, e); } }}

向kafka發送消息的工具類:KafkaProducer:

public class KafkaProducer implements Consumer<UserBehavior> { private final String topic; private final org.apache.kafka.clients.producer.KafkaProducer<byte[], byte[]> producer; private final JsonSerializer<UserBehavior> serializer; public KafkaProducer(String kafkaTopic, String kafkaBrokers) { this.topic = kafkaTopic; this.producer = new org.apache.kafka.clients.producer.KafkaProducer<>(createKafkaProperties(kafkaBrokers)); this.serializer = new JsonSerializer<>(); } @Override public void accept(UserBehavior record) { // 將對象序列化成byte數組 byte[] data = serializer.toJSONBytes(record); // 封裝 ProducerRecord<byte[], byte[]> kafkaRecord = new ProducerRecord<>(topic, data); // 發送 producer.send(kafkaRecord); // 通過sleep控制消息的速度,請依據自身kafka配置以及flink服務器配置來調整 try { Thread.sleep(500); }catch(InterruptedException e){ e.printStackTrace(); } } /** * kafka配置 * @param brokers The brokers to connect to. * @return A Kafka producer configuration. */ private static Properties createKafkaProperties(String brokers) { Properties kafkaProps = new Properties(); kafkaProps.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers); kafkaProps.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, ByteArraySerializer.class.getCanonicalName()); kafkaProps.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, ByteArraySerializer.class.getCanonicalName()); return kafkaProps; }}

最后是應用類SendMessageApplication,CSV文件路徑、kafka的topic和borker地址都在此設置,另外借助java8的Stream API,只需少量代碼即可完成所有工作:

public class SendMessageApplication { public static void main(String[] args) throws Exception { // 文件地址 String filePath = 'D:temp20200502UserBehavior.csv'; // kafka topic String topic = 'user_behavior'; // kafka borker地址 String broker = '192.168.50.43:9092'; Stream.generate(new UserBehaviorCsvFileReader(filePath)) .sequential() .forEachOrdered(new KafkaProducer(topic, broker)); }}

驗證

請確保kafka已經就緒,并且名為user_behavior的topic已經創建; 請將CSV文件準備好; 確認SendMessageApplication.java中的文件地址、kafka topic、kafka broker三個參數準確無誤; 運行SendMessageApplication.java; 開啟一個 控制臺消息kafka消息,參考命令如下:

./kafka-console-consumer.sh --bootstrap-server 127.0.0.1:9092 --topic user_behavior --consumer-property group.id=old-consumer-test --consumer-property consumer.id=old-consumer-cl --from-beginning 正常情況下可以立即見到消息,如下圖:

Java將CSV的數據發送到kafka的示例

至此,通過Java應用模擬用戶行為消息流的操作就完成了,接下來的flink實戰就用這個作為數據源;

以上就是Java將CSV的數據發送到kafka得示例的詳細內容,更多關于Java CSV的數據發送到kafka的資料請關注好吧啦網其它相關文章!

標簽: Java
相關文章:
主站蜘蛛池模板: 篮球架_乒乓球台_足球门_校园_竞技体育器材_厂家_价格-沧州浩然体育器材有限公司 | 无锡网站建设_小程序制作_网站设计公司_无锡网络公司_网站制作 | 中山东港家具集团-酒店-办公-医养家具定制厂家 | 偏心半球阀-电动偏心半球阀-调流调压阀-旋球阀-上欧阀门有限公司 | 纳米涂料品牌 防雾抗污纳米陶瓷涂料厂家_虹瓷科技 | 礼仪庆典公司,礼仪策划公司,庆典公司,演出公司,演艺公司,年会酒会,生日寿宴,动工仪式,开工仪式,奠基典礼,商务会议,竣工落成,乔迁揭牌,签约启动-东莞市开门红文化传媒有限公司 | 冷水机-冰水机-冷冻机-冷风机-本森智能装备(深圳)有限公司 | 光纤测温-荧光光纤测温系统-福州华光天锐光电科技有限公司 | 电梯乘运质量测试仪_电梯安全评估测试仪-武汉懿之刻 | 发电机组|柴油发电机组-批发,上柴,玉柴,潍柴,康明斯柴油发电机厂家直销 | 电脑知识|软件|系统|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网 | 探鸣起名网-品牌起名-英文商标起名-公司命名-企业取名包满意 | 深圳货架厂_仓库货架公司_重型仓储货架_线棒货架批发-深圳市诺普泰仓储设备有限公司 | 品牌设计_VI设计_电影海报设计_包装设计_LOGO设计-Bacross新越品牌顾问 | 继电器模组-IO端子台-plc连接线-省配线模组厂家-世麦德 | 武汉创亿电气设备有限公司_电力检测设备生产厂家 | 嘉兴恒升声级计-湖南衡仪声级计-杭州爱华多功能声级计-上海邦沃仪器设备有限公司 | 温室大棚建设|水肥一体化|物联网系统 | 搪瓷反应釜厂家,淄博搪瓷反应釜-淄博卓耀| 订做不锈钢_不锈钢定做加工厂_不锈钢非标定制-重庆侨峰金属加工厂 | 天津市能谱科技有限公司-专业的红外光谱仪_红外测油仪_紫外测油仪_红外制样附件_傅里叶红外光谱技术生产服务厂商 | SF6环境监测系统-接地环流在线监测装置-瑟恩实业 | 【灵硕展览集团】展台展会设计_展览会展台搭建_展览展示设计一站式服务公司 | 保镖公司-私人保镖-深圳保镖公司【环宇兄弟保镖】 | 集装箱展厅-住人集装箱住宿|建筑|房屋|集装箱售楼处-山东锐嘉科技工程有限公司 | 合肥触摸一体机_触摸查询机厂家_合肥拼接屏-安徽迅博智能科技 | 玻纤土工格栅_钢塑格栅_PP焊接_单双向塑料土工格栅_复合防裂布厂家_山东大庚工程材料科技有限公司 | 天长市晶耀仪表有限公司| 工业制氮机_psa制氮机厂家-宏骁智能装备科技江苏有限公司 | 美国PARKER齿轮泵,美国PARKER柱塞泵,美国PARKER叶片泵,美国PARKER电磁阀,美国PARKER比例阀-上海维特锐实业发展有限公司二部 | uv固化机-丝印uv机-工业烤箱-五金蚀刻机-分拣输送机 - 保定市丰辉机械设备制造有限公司 | 钢托盘,铁托盘,钢制托盘,镀锌托盘,饲料托盘,钢托盘制造商-南京飞天金属13260753852 | 广西绿桂涂料--承接隔热涂料、隔音涂料、真石漆、多彩仿石漆等涂料工程双包施工 | 短信通106短信接口验证码接口群发平台_国际短信接口验证码接口群发平台-速度网络有限公司 | 空气能暖气片,暖气片厂家,山东暖气片,临沂暖气片-临沂永超暖通设备有限公司 | 胶原检测试剂盒,弹性蛋白检测试剂盒,类克ELISA试剂盒,阿达木单抗ELISA试剂盒-北京群晓科苑生物技术有限公司 | 无机纤维喷涂棉-喷涂棉施工工程-山东华泉建筑工程有限公司▲ | 安徽合肥格力空调专卖店_格力中央空调_格力空调总经销公司代理-皖格制冷设备 | 安徽成考网-安徽成人高考网| 实验室隔膜泵-无油防腐蚀隔膜泵-耐腐蚀隔膜真空泵-杭州景程仪器 电杆荷载挠度测试仪-电杆荷载位移-管桩测试仪-北京绿野创能机电设备有限公司 | 有源电力滤波装置-电力有源滤波器-低压穿排电流互感器|安科瑞 |